장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17402374
부산 : 국립부경대학교 대학원, 2026
학위논문(석사) -- 국립부경대학교 대학원 , 산업및데이터공학과 산업데이터공학융합전공 , 2026. 2
2026
한국어
부산
58 ; 26 cm
지도교수: 최성철
I804:21031-200000965212
0
상세조회0
다운로드장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성...
장면 텍스트 편집(Scene Text Editing, STE)은 이미지 내 텍스트 내용을 수정하면서 글꼴, 색상, 배경 등 시각적 스타일을 유지하는 작업이다. 최근 확산 기반 접근법이 시각적 품질을 개선하는 성과를 보였으나, 여전히 세 가지 핵심적인 한계가 존재한다. 저자원 언어에 대한 지원이 부족하고, 합성 데이터와 실세계 데이터 간의 domain gap 이 크며, 텍스트 스타일 보존 정도를 적절히 평가할 수 있는 지표가 부재하다는 점이다. 이러한 문제를 해결하기 위해 본 연구에서는 저자원 언어 실세계 STE 를 위한 벤치마크와 평가 축을 구축하고, 이를 위한 강한 직접 편집 베이스라인을 제시한다. 먼저, 저자원 언어 기반 실세계 텍스트 쌍 이미지 데이터셋인 STIPLAR(Scene Text Image Pairs of Low-resource lAnguages and Real-world data)를 구축하여 학습과 평가에 활용한다. 또한, 글꼴, 색상, 배경의 유사도를 독립적으로 측정하여 스타일 보존 성능을 정량적으로 평가할 수 있는 새로운 지표 TAS(Text Appearance Similarity)를 제안하며, 정답 이미지가 없는 상황에서도 스타일 변화에 대한 신뢰 가능한 비교를 가능하게 한다. 마지막으로, 기존 확신 기반 편집 설정을 저자원 언어로 확장한 직접 편집 모델 STELLAR(Scene Text Editor for Low-resource LAnguages and Real-world data)를 제안한다. STELLAR 는 language-adaptive glyph encoder 와 multi-stage 학습 전략을 결합하여, 합성 데이터로 사전 학습을 수행한 뒤 실세계 이미지로 미세 조정을 진행함으로써 안정적인 다국어 텍스트 편집 안정성을 높인다. 실험 결과, STELLAR 는 시각적 일관성과 텍스트 인식 정확도 측면에서 기존 최신 기법들을 능가하였으며, 모든 언어 평균 2.2%의 TAS 향상을 달성하였다.
다국어 초록 (Multilingual Abstract)
Scene Text Editing (STE) aims to modify text content in an image while preserving visual attributes such as font, color, and background. Despite recent progress driven by diffusion models, STE still faces three practical limitations: limited support f...
Scene Text Editing (STE) aims to modify text content in an image while preserving visual attributes such as font, color, and background. Despite recent progress driven by diffusion models, STE still faces three practical limitations: limited support for low-resource languages, a large domain gap between synthetic and real-world data, and the lack of an interpretable metric for style preservation. This work addresses these gaps by establishing a benchmark and an evaluation axis for real-world STE in low-resource languages, together with a strong direct-editing baseline. We first construct STIPLAR (Scene Text Image Pairs of Low-resource lAnguages and Real-world data), a paired real-world dataset designed for training and evaluation. We further propose Text Appearance Similarity (TAS), which quantifies style preservation by independently measuring font, color, and background similarity, enabling reliable comparison even when ground-truth edited images are unavailable. Finally, we present STELLAR (Scene Text Editor for Low-resource LAnguages and Real-world data), a direct-editing model that extends diffusion-based editing to low- resource languages. STELLAR combines a language-adaptive glyph encoder with a multi- stage training strategy that pre-trains on synthetic pairs and then fine-tunes on real-world pairs to improve multilingual editing stability. Experiments show that STELLAR achieves better visual consistency and text recognition accuracy than existing methods, with an average TAS improvement of 2.2% across languages.
Keywords: Scene Text Editing, Low-resource Languages, Multilingual Text Image Dataset, Text Image Similarity
목차 (Table of Contents)