저자원 언어와 실세계 데이터를 위한 장면 텍스트 이미지 편집 모델 개발 = STELLAR: Scene Text Editor For Low-Resource Languages and Real-World Data|RISS 상세보기

국문 초록 (Abstract)

장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성과를 보였으나, 여전히 세 가지 핵심적인 한계가 존재한다. 저자원 언어에 대한 지원이 부족하고, 합성 데이터와 실세계 데이터 간의 domain gap 이 크며, 텍스트 스타일 보존 정도를 적절히 평가할 수 있는 지표가 부재하다는 점이다. 이러한 문제를 해결하기 위해 본 연구에서는 저자원 언어 실세계 STE 를 위한 벤치마크와 평가 축을 구축하고, 이를 위한 강한 직접 편집 베이스라인을 제시한다. 먼저, 저자원 언어 기반 실세계 텍스트 쌍 이미지 데이터셋인 STIPLAR(Scene Text Image Pairs of Low-resource lAnguages and Real-world data)를 구축하여 학습과 평가에 활용한다. 또한, 글꼴, 색상, 배경의 유사도를 독립적으로 측정하여 스타일 보존 성능을 정량적으로 평가할 수 있는 새로운 지표 TAS(Text Appearance Similarity)를 제안하며, 정답 이미지가 없는 상황에서도 스타일 변화에 대한 신뢰 가능한 비교를 가능하게 한다. 마지막으로, 기존 확신 기반 편집 설정을 저자원 언어로 확장한 직접 편집 모델 STELLAR(Scene Text Editor for Low-resource LAnguages and Real-world data)를 제안한다. STELLAR 는 language-adaptive glyph encoder 와 multi-stage 학습 전략을 결합하여, 합성 데이터로 사전 학습을 수행한 뒤 실세계 이미지로 미세 조정을 진행함으로써 안정적인 다국어 텍스트 편집 안정성을 높인다. 실험 결과, STELLAR 는 시각적 일관성과 텍스트 인식 정확도 측면에서 기존 최신 기법들을 능가하였으며, 모든 언어 평균 2.2%의 TAS 향상을 달성하였다.

번역하기

장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성...

다국어 초록 (Multilingual Abstract)

Scene Text Editing (STE) aims to modify text content in an image while preserving visual attributes such as font, color, and background. Despite recent progress driven by diffusion models, STE still faces three practical limitations: limited support for low-resource languages, a large domain gap between synthetic and real-world data, and the lack of an interpretable metric for style preservation. This work addresses these gaps by establishing a benchmark and an evaluation axis for real-world STE in low-resource languages, together with a strong direct-editing baseline. We first construct STIPLAR (Scene Text Image Pairs of Low-resource lAnguages and Real-world data), a paired real-world dataset designed for training and evaluation. We further propose Text Appearance Similarity (TAS), which quantifies style preservation by independently measuring font, color, and background similarity, enabling reliable comparison even when ground-truth edited images are unavailable. Finally, we present STELLAR (Scene Text Editor for Low-resource LAnguages and Real-world data), a direct-editing model that extends diffusion-based editing to low- resource languages. STELLAR combines a language-adaptive glyph encoder with a multi- stage training strategy that pre-trains on synthetic pairs and then fine-tunes on real-world pairs to improve multilingual editing stability. Experiments show that STELLAR achieves better visual consistency and text recognition accuracy than existing methods, with an average TAS improvement of 2.2% across languages.
Keywords: Scene Text Editing, Low-resource Languages, Multilingual Text Image Dataset, Text Image Similarity

번역하기

목차 (Table of Contents)

1. 서론 1
1.1. 연구배경 1
1.2. 연구목적 4
2. 선행연구 6
2.1. Scene Text Editing 6

1. 서론 1
1.1. 연구배경 1
1.2. 연구목적 4
2. 선행연구 6
2.1. Scene Text Editing 6
2.2. 다국어 텍스트 이미지 생성 7
2.3. 실세계 데이터에 대한 도메인 적응 8
3. STELLAR 의 구성 및 학습 방법 9
3.1. 기본 구조 및 사전 정의 9
3.2. STELLAR 프레임워크 개요 12
3.3. Language-Adaptive Glyph Encoding 14
3.4. Multi-Stage 학습 전략 15
4. 데이터셋 16
5. Text Appearance Similarity 18
6. 실험 21
6.1. 실험 구성 및 평가 절차 21
6.1.1. 비교 모델 21
6.1.2. 학습 설정 21
6.1.3. 추론 및 평가 절차 22
6.1.4. 벤치마크 23
6.2. 정량적 평가 24
6.2.1. STIPLAR 평가 결과 24
6.2.2. 공개 장면 텍스트 벤치마크 평가 결과 25
6.3. 정성적 평가 27
6.4. TAS 분석 29
6.4.1. 시각적 variation 에 대한 유효성 검증 29
6.4.2. 사용자 평가와의 상관 분석 30
6.4.3. 정답 이미지 부재 환경에서의 TAS 평가 32
6.5. Ablation Study 33
6.5.1. Multi-Stage 학습 전략의 효과 분석 33
6.5.2. Post-hoc 기법과의 비교 분석 35
6.5.3. Stage 2 데이터 규모의 영향에 대한 분석 35
6.5.4. Stage 1 합성 데이터 필터링 과정의 영향 분석 36
7. 한계 및 향후 과제 37
8. 결론 39

상세검색

RISS 보유자료

상세검색

해외전자자료

저자원 언어와 실세계 데이터를 위한 장면 텍스트 이미지 편집 모델 개발 = STELLAR: Scene Text Editor For Low-Resource Languages and Real-World Data

부가정보

분석정보

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료