RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      확산 모델 기반 필기 이미지 생성에 관한 연구 = A Study on Handwritten Image Generation based on Diffusion Model

      한글로보기

      https://www.riss.kr/link?id=T17322029

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      디지털 기술이 일상을 대체하는 현재에도 필기 이미지는 교육, 의료, 금융, 예술 분야에서 중요한 역할을 수행하고 있다. 하지만 사고나 질병과 같은 후천적 원인으로 인해 필기에 어려움을 겪는 사람들이 증가하고 있다. 이러한 상황에 처한 사람들은 타인의 도움에 의존해야 하며, 개인의 독립성과 프라이버시, 자존감에 부정적인 영향을 받게 된다. 개인의 고유한 필체 특성을 학습하여 서명 이미지를 생성하거나 임의의 텍스트를 개인 필체로 변환하는 기술은 신체적 제약을 극복하는 보조 도구로서 실질적인 도움을 제공할 수 있다.
      본 논문에서는 서명과 문자라는 두 요소의 생성에 대해 각각 특화된 확산 모델을 제안한다. 서명 이미지 생성을 위한 조건부 확산 모델에서는 타임스텝과 클래스 정보를 하나의 통합 임베딩으로 처리하여 네트워크 전반에 일관되게 전달하는 방식을 채택했다. 또한 서명의 희소한 전경 구조에서 전역적 일관성을 확보하기 위해 저해상도 구간에서만 자기 어텐션을 선택적으로 적용하여 계산 효율성과 표현력의 균형을 달성했으며, EMA 네트워크를 통해 학습 과정의 매개변수 변동을 완화하여 생성 안정성을 향상시켰다. 문자 이미지 생성을 위한 잠재 확산 모델에서는 VAE를 통한 지각적 압축을 수행하여 잠재 공간에서 효율적인 확산 과정을 수행한다. 콘텐트와 스타일 정보를 효과적으로 분리하고 통합하기 위해, 콘텐트 인코더가 추출한 문자의 구조적 정보는 채널 어텐션을 통해 U-Net의 인코더 부분에만 주입하고, 스타일 인코더가 다중 참조 이미지로부터 추출한 스타일 정보는 교차 어텐션을 통해 주입하는 방법으로 문자 이미지를 생성한다.
      본 연구는 확산 모델을 필기 이미지 생성에 적용하여 각 구성 요소의 설계 원칙을 실험적으로 검증했으며, 서명과 문자라는 상이한 필기 도메인에서 공통적으로 적용 가능한 설계 가이드라인과 도메인별 특화 전략을 실험적 검증을 통해 제시한다. 제안된 서명 이미지 생성 모델은 CEDAR 데이터셋에서 유사도 분류 정확도 93.0%, 클래스 분류 정확도 93.4%를 달성하였으며, BHSig260-B 데이터셋에서는 유사도 분류 정확도 98.9%, 클래스 분류 정확도 99.4%를 기록하여 고품질의 서명 이미지를 생성할 수 있음을 확인하였다. 제안된 문자 이미지 생성 모델은 손글씨 폰트 이미지를 대상으로 학습 및 생성하였을 때 FID 19.58, SSIM 0.9655를 기록하여 실용적 활용이 가능한 수준의 문자 이미지를 생성할 수 있었다.
      번역하기

      디지털 기술이 일상을 대체하는 현재에도 필기 이미지는 교육, 의료, 금융, 예술 분야에서 중요한 역할을 수행하고 있다. 하지만 사고나 질병과 같은 후천적 원인으로 인해 필기에 어려움을 ...

      디지털 기술이 일상을 대체하는 현재에도 필기 이미지는 교육, 의료, 금융, 예술 분야에서 중요한 역할을 수행하고 있다. 하지만 사고나 질병과 같은 후천적 원인으로 인해 필기에 어려움을 겪는 사람들이 증가하고 있다. 이러한 상황에 처한 사람들은 타인의 도움에 의존해야 하며, 개인의 독립성과 프라이버시, 자존감에 부정적인 영향을 받게 된다. 개인의 고유한 필체 특성을 학습하여 서명 이미지를 생성하거나 임의의 텍스트를 개인 필체로 변환하는 기술은 신체적 제약을 극복하는 보조 도구로서 실질적인 도움을 제공할 수 있다.
      본 논문에서는 서명과 문자라는 두 요소의 생성에 대해 각각 특화된 확산 모델을 제안한다. 서명 이미지 생성을 위한 조건부 확산 모델에서는 타임스텝과 클래스 정보를 하나의 통합 임베딩으로 처리하여 네트워크 전반에 일관되게 전달하는 방식을 채택했다. 또한 서명의 희소한 전경 구조에서 전역적 일관성을 확보하기 위해 저해상도 구간에서만 자기 어텐션을 선택적으로 적용하여 계산 효율성과 표현력의 균형을 달성했으며, EMA 네트워크를 통해 학습 과정의 매개변수 변동을 완화하여 생성 안정성을 향상시켰다. 문자 이미지 생성을 위한 잠재 확산 모델에서는 VAE를 통한 지각적 압축을 수행하여 잠재 공간에서 효율적인 확산 과정을 수행한다. 콘텐트와 스타일 정보를 효과적으로 분리하고 통합하기 위해, 콘텐트 인코더가 추출한 문자의 구조적 정보는 채널 어텐션을 통해 U-Net의 인코더 부분에만 주입하고, 스타일 인코더가 다중 참조 이미지로부터 추출한 스타일 정보는 교차 어텐션을 통해 주입하는 방법으로 문자 이미지를 생성한다.
      본 연구는 확산 모델을 필기 이미지 생성에 적용하여 각 구성 요소의 설계 원칙을 실험적으로 검증했으며, 서명과 문자라는 상이한 필기 도메인에서 공통적으로 적용 가능한 설계 가이드라인과 도메인별 특화 전략을 실험적 검증을 통해 제시한다. 제안된 서명 이미지 생성 모델은 CEDAR 데이터셋에서 유사도 분류 정확도 93.0%, 클래스 분류 정확도 93.4%를 달성하였으며, BHSig260-B 데이터셋에서는 유사도 분류 정확도 98.9%, 클래스 분류 정확도 99.4%를 기록하여 고품질의 서명 이미지를 생성할 수 있음을 확인하였다. 제안된 문자 이미지 생성 모델은 손글씨 폰트 이미지를 대상으로 학습 및 생성하였을 때 FID 19.58, SSIM 0.9655를 기록하여 실용적 활용이 가능한 수준의 문자 이미지를 생성할 수 있었다.

      더보기

      목차 (Table of Contents)

      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 연구 목표 3
      • 1.3 논문 구성 4
      • 2. 배경지식 및 관련연구 5
      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 연구 목표 3
      • 1.3 논문 구성 4
      • 2. 배경지식 및 관련연구 5
      • 2.1 서명 이미지 생성 모델 5
      • 2.2 문자 이미지 생성 모델 7
      • 2.3 확산 모델 10
      • 2.4 확산 모델의 조건부 생성 14
      • 2.5 잠재 확산 모델 15
      • 2.6 어텐션 메커니즘 19
      • 3. 개인 필체 이미지 생성 모델 22
      • 3.1 서명 이미지 생성을 위한 조건부 확산 모델 22
      • 3.1.1 제안하는 서명 이미지 생성 모델 구조 22
      • 3.1.2 학습 및 샘플링 방법 28
      • 3.2 문자 이미지 생성을 위한 잠재 확산 모델 30
      • 3.2.1 제안하는 문자 이미지 생성 모델 구조 30
      • 3.2.2 학습 및 샘플링 방법 36
      • 4. 실험 및 결과 분석 38
      • 4.1 필기 이미지 데이터셋 38
      • 4.1.1 서명 이미지 데이터셋 38
      • 4.1.2 문자 이미지 데이터셋 39
      • 4.2 실험 환경 42
      • 4.2.1 서명 이미지 생성 모델의 실험 환경 42
      • 4.2.2 문자 이미지 생성 모델의 실험 환경 42
      • 4.3 성능 평가 방법 44
      • i4.3.1 서명 이미지 평가 방법 44
      • 4.3.2 문자 이미지 평가 방법 47
      • 4.4 서명 이미지 생성 모델의 성능 평가 49
      • 4.4.1 기존 생성 모델 대비 성능 52
      • 4.4.2 클래스 조건 전달 방식 53
      • 4.4.3 자기 어텐션 적용 효과 54
      • 4.4.4 EMA 네트워크의 생성 안정성 56
      • 4.5 문자 이미지 생성 모델의 성능 평가 58
      • 4.5.1 기존 확산 모델 기반의 문자 이미지 생성 모델과의 비교 58
      • 4.5.2 표현 공간에 따른 생성 결과 61
      • 4.5.3 스타일 조건 주입 위치 효과 분석 64
      • 4.5.4 조건부 인코더 학습 전략 66
      • 4.5.5 다중 참조 스타일 이미지 수에 따른 성능 변화 67
      • 4.6 토의 69
      • 5. 결론 71
      • 부록 A. 샴 네트워크 기반의 서명 검증 분류기 81
      • A.1 서명 검증 분류기의 구조 81
      • A.2 서명 검증 분류기의 학습 및 평가 82
      • A.2.1 이미지 쌍 구성 방법 82
      • A.2.2 손실 함수 83
      • A.2.3 분류기 성능 검증 84
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼