컴퓨터 기술의 급격한 발전, 특히 GPU·TPU 기반 연산 처리 능력을 바탕으로 대규모데이터 학습을 통한 딥러닝 기법의 고도화는 컴퓨터 비전 영역 전반의 과업 수행능력을크게 향상시켜 왔다. ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17388998
부산 : 부산대학교 대학원, 2026
학위논문(석사) -- 부산대학교 대학원 , 정보융합공학과-AI전공 , 2026. 2
2026
한국어
부산
37 ; 26 cm
지도교수: 송길태
I804:21016-000000171123
0
상세조회0
다운로드컴퓨터 기술의 급격한 발전, 특히 GPU·TPU 기반 연산 처리 능력을 바탕으로 대규모데이터 학습을 통한 딥러닝 기법의 고도화는 컴퓨터 비전 영역 전반의 과업 수행능력을크게 향상시켜 왔다. ...
컴퓨터 기술의 급격한 발전, 특히 GPU·TPU 기반 연산 처리 능력을 바탕으로 대규모데이터 학습을 통한 딥러닝 기법의 고도화는 컴퓨터 비전 영역 전반의 과업 수행능력을크게 향상시켜 왔다. 이에 따라 문서 처리 분야에서도 최근 전통적인 규칙 기반 방식에서 벗어난 end-to-end 방식의 딥러닝 접근이 다수 시도되고 있으며, 언어·이미지·레이아웃 정보를 통합하는 멀티모달 모델이 등장하면서 문서 이해(Document Understanding)의 성능이 더욱 개선되고 있다. 그러나 이러한 모델들은 주로 텍스트 토큰 수준에 집중하기 때문에, 실제 문서 구조를 이루는 표(Table), 이미지(Image)와 같은시각적 구성요소를 정교하게 분리·해석하는 것에는 여전히 한계가 존재한다. 특히 한국어 행정·공공문서처럼 다양한 표 형태와 텍스트·이미지의 혼합 배치가 많은 문서에서는기존 CRAFT 모델과 같이 문자 중심 탐지만으로는 문서에 포함된 표나 이미지 영역의간섭으로 인해 문장 단위 재구성 및 구조 분석에 어려움이 따른다. 본 연구는 이러한 한계를 극복하기 위해 CRAFT 모델의 구조를 확장하여, 기존 RGB입력 채널 대신 명암(gray), 기울기(gradient), 고주파(high-pass) 성분을 입력으로 문서의 구조적 패턴 인식을 강화한 RA-TI CRAFT 모델을 제안한다. 종합하면, 제안된RA-TI CRAFT 모델은 문자·표·이미지 등 다양한 시각적 요소를 단일 모델에서 동시에처리할 수 있는 통합형 문서 레이아웃 분할 모델로서, 향후 문서 이해 과업을 위한 고품질 전처리 모듈로 활용될 가능성을 제시한다.
다국어 초록 (Multilingual Abstract)
Recent advances in computing technology—particularly the rapid development of GPU/TPU-basedparallel processing—have significantly enhanced the capability of deep learning models trained onlarge-scale datasets. In the field of document analysis, th...
Recent advances in computing technology—particularly the rapid development of GPU/TPU-basedparallel processing—have significantly enhanced the capability of deep learning models trained onlarge-scale datasets. In the field of document analysis, this has accelerated a shift fromtraditional rule-based approaches toward end-to-end deep learning frameworks. With theemergence of multimodal models that jointly leverage linguistic, visual, and layoutrepresentations, performance in Document Understanding tasks has improved substantially.
However, these models generally focus on token-level textual features, leaving notable limitationsin accurately detecting and separating visual structural components such as tables andembedded images. This challenge becomes more pronounced in Korean administrative and publicdocuments, where diverse table layouts and mixed arrangements of text and images frequentlyinterfere with line-level reconstruction and structural interpretation. Models such as CRAFT,which are optimized for character-centric detection, struggle to robustly isolate non-textualregions in such complex layouts. To address these limitations, this study proposes RA-TI CRAFT,an extended version of the original CRAFT architecture. The proposed model replaces the RGBinput with a multi-channel representation composed of gray, gradient, and high-pass features toenhance structural pattern recognition within document images. In summary, RA-TI CRAFT isdesigned as an integrated document layout analysis model capable of jointly detecting textual,tabular, and image regions within a single framework. This demonstrates its potential as ahigh-quality preprocessing module for downstream Document Understanding systems.
목차 (Table of Contents)