RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      저자원 언어와 실세계 데이터를 위한 장면 텍스트 이미지 편집 모델 개발 = STELLAR: Scene Text Editor For Low-Resource Languages and Real-World Data

      한글로보기

      https://www.riss.kr/link?id=T17402374

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성과를 보였으나, 여전히 세 가지 핵심적인 한계가 존재한다. 저자원 언어에 대한 지원이 부족하고, 합성 데이터와 실세계 데이터 간의 domain gap 이 크며, 텍스트 스타일 보존 정도를 적절히 평가할 수 있는 지표가 부재하다는 점이다. 이러한 문제를 해결하기 위해 본 연구에서는 저자원 언어 실세계 STE 를 위한 벤치마크와 평가 축을 구축하고, 이를 위한 강한 직접 편집 베이스라인을 제시한다. 먼저, 저자원 언어 기반 실세계 텍스트 쌍 이미지 데이터셋인 STIPLAR(Scene Text Image Pairs of Low-resource lAnguages and Real-world data)를 구축하여 학습과 평가에 활용한다. 또한, 글꼴, 색상, 배경의 유사도를 독립적으로 측정하여 스타일 보존 성능을 정량적으로 평가할 수 있는 새로운 지표 TAS(Text Appearance Similarity)를 제안하며, 정답 이미지가 없는 상황에서도 스타일 변화에 대한 신뢰 가능한 비교를 가능하게 한다. 마지막으로, 기존 확신 기반 편집 설정을 저자원 언어로 확장한 직접 편집 모델 STELLAR(Scene Text Editor for Low-resource LAnguages and Real-world data)를 제안한다. STELLAR 는 language-adaptive glyph encoder 와 multi-stage 학습 전략을 결합하여, 합성 데이터로 사전 학습을 수행한 뒤 실세계 이미지로 미세 조정을 진행함으로써 안정적인 다국어 텍스트 편집 안정성을 높인다. 실험 결과, STELLAR 는 시각적 일관성과 텍스트 인식 정확도 측면에서 기존 최신 기법들을 능가하였으며, 모든 언어 평균 2.2%의 TAS 향상을 달성하였다.
      번역하기

      장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성...

      장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성과를 보였으나, 여전히 세 가지 핵심적인 한계가 존재한다. 저자원 언어에 대한 지원이 부족하고, 합성 데이터와 실세계 데이터 간의 domain gap 이 크며, 텍스트 스타일 보존 정도를 적절히 평가할 수 있는 지표가 부재하다는 점이다. 이러한 문제를 해결하기 위해 본 연구에서는 저자원 언어 실세계 STE 를 위한 벤치마크와 평가 축을 구축하고, 이를 위한 강한 직접 편집 베이스라인을 제시한다. 먼저, 저자원 언어 기반 실세계 텍스트 쌍 이미지 데이터셋인 STIPLAR(Scene Text Image Pairs of Low-resource lAnguages and Real-world data)를 구축하여 학습과 평가에 활용한다. 또한, 글꼴, 색상, 배경의 유사도를 독립적으로 측정하여 스타일 보존 성능을 정량적으로 평가할 수 있는 새로운 지표 TAS(Text Appearance Similarity)를 제안하며, 정답 이미지가 없는 상황에서도 스타일 변화에 대한 신뢰 가능한 비교를 가능하게 한다. 마지막으로, 기존 확신 기반 편집 설정을 저자원 언어로 확장한 직접 편집 모델 STELLAR(Scene Text Editor for Low-resource LAnguages and Real-world data)를 제안한다. STELLAR 는 language-adaptive glyph encoder 와 multi-stage 학습 전략을 결합하여, 합성 데이터로 사전 학습을 수행한 뒤 실세계 이미지로 미세 조정을 진행함으로써 안정적인 다국어 텍스트 편집 안정성을 높인다. 실험 결과, STELLAR 는 시각적 일관성과 텍스트 인식 정확도 측면에서 기존 최신 기법들을 능가하였으며, 모든 언어 평균 2.2%의 TAS 향상을 달성하였다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Scene Text Editing (STE) aims to modify text content in an image while preserving visual attributes such as font, color, and background. Despite recent progress driven by diffusion models, STE still faces three practical limitations: limited support for low-resource languages, a large domain gap between synthetic and real-world data, and the lack of an interpretable metric for style preservation. This work addresses these gaps by establishing a benchmark and an evaluation axis for real-world STE in low-resource languages, together with a strong direct-editing baseline. We first construct STIPLAR (Scene Text Image Pairs of Low-resource lAnguages and Real-world data), a paired real-world dataset designed for training and evaluation. We further propose Text Appearance Similarity (TAS), which quantifies style preservation by independently measuring font, color, and background similarity, enabling reliable comparison even when ground-truth edited images are unavailable. Finally, we present STELLAR (Scene Text Editor for Low-resource LAnguages and Real-world data), a direct-editing model that extends diffusion-based editing to low- resource languages. STELLAR combines a language-adaptive glyph encoder with a multi- stage training strategy that pre-trains on synthetic pairs and then fine-tunes on real-world pairs to improve multilingual editing stability. Experiments show that STELLAR achieves better visual consistency and text recognition accuracy than existing methods, with an average TAS improvement of 2.2% across languages.
      Keywords: Scene Text Editing, Low-resource Languages, Multilingual Text Image Dataset, Text Image Similarity
      번역하기

      Scene Text Editing (STE) aims to modify text content in an image while preserving visual attributes such as font, color, and background. Despite recent progress driven by diffusion models, STE still faces three practical limitations: limited support f...

      Scene Text Editing (STE) aims to modify text content in an image while preserving visual attributes such as font, color, and background. Despite recent progress driven by diffusion models, STE still faces three practical limitations: limited support for low-resource languages, a large domain gap between synthetic and real-world data, and the lack of an interpretable metric for style preservation. This work addresses these gaps by establishing a benchmark and an evaluation axis for real-world STE in low-resource languages, together with a strong direct-editing baseline. We first construct STIPLAR (Scene Text Image Pairs of Low-resource lAnguages and Real-world data), a paired real-world dataset designed for training and evaluation. We further propose Text Appearance Similarity (TAS), which quantifies style preservation by independently measuring font, color, and background similarity, enabling reliable comparison even when ground-truth edited images are unavailable. Finally, we present STELLAR (Scene Text Editor for Low-resource LAnguages and Real-world data), a direct-editing model that extends diffusion-based editing to low- resource languages. STELLAR combines a language-adaptive glyph encoder with a multi- stage training strategy that pre-trains on synthetic pairs and then fine-tunes on real-world pairs to improve multilingual editing stability. Experiments show that STELLAR achieves better visual consistency and text recognition accuracy than existing methods, with an average TAS improvement of 2.2% across languages.
      Keywords: Scene Text Editing, Low-resource Languages, Multilingual Text Image Dataset, Text Image Similarity

      더보기

      목차 (Table of Contents)

      • 1. 서론 1
      • 1.1. 연구배경 1
      • 1.2. 연구목적 4
      • 2. 선행연구 6
      • 2.1. Scene Text Editing 6
      • 1. 서론 1
      • 1.1. 연구배경 1
      • 1.2. 연구목적 4
      • 2. 선행연구 6
      • 2.1. Scene Text Editing 6
      • 2.2. 다국어 텍스트 이미지 생성 7
      • 2.3. 실세계 데이터에 대한 도메인 적응 8
      • 3. STELLAR 의 구성 및 학습 방법 9
      • 3.1. 기본 구조 및 사전 정의 9
      • 3.2. STELLAR 프레임워크 개요 12
      • 3.3. Language-Adaptive Glyph Encoding 14
      • 3.4. Multi-Stage 학습 전략 15
      • 4. 데이터셋 16
      • 5. Text Appearance Similarity 18
      • 6. 실험 21
      • 6.1. 실험 구성 및 평가 절차 21
      • 6.1.1. 비교 모델 21
      • 6.1.2. 학습 설정 21
      • 6.1.3. 추론 및 평가 절차 22
      • 6.1.4. 벤치마크 23
      • 6.2. 정량적 평가 24
      • 6.2.1. STIPLAR 평가 결과 24
      • 6.2.2. 공개 장면 텍스트 벤치마크 평가 결과 25
      • 6.3. 정성적 평가 27
      • 6.4. TAS 분석 29
      • 6.4.1. 시각적 variation 에 대한 유효성 검증 29
      • 6.4.2. 사용자 평가와의 상관 분석 30
      • 6.4.3. 정답 이미지 부재 환경에서의 TAS 평가 32
      • 6.5. Ablation Study 33
      • 6.5.1. Multi-Stage 학습 전략의 효과 분석 33
      • 6.5.2. Post-hoc 기법과의 비교 분석 35
      • 6.5.3. Stage 2 데이터 규모의 영향에 대한 분석 35
      • 6.5.4. Stage 1 합성 데이터 필터링 과정의 영향 분석 36
      • 7. 한계 및 향후 과제 37
      • 8. 결론 39
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼