RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      RA-TI CRAFT : 문서 레이아웃 4클래스 동시분할 모델 = RA-TI CRAFT: Document Layout 4-class Simultaneous Segmentation Model

      한글로보기

      https://www.riss.kr/link?id=T17388998

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      컴퓨터 기술의 급격한 발전, 특히 GPU·TPU 기반 연산 처리 능력을 바탕으로 대규모데이터 학습을 통한 딥러닝 기법의 고도화는 컴퓨터 비전 영역 전반의 과업 수행능력을크게 향상시켜 왔다. 이에 따라 문서 처리 분야에서도 최근 전통적인 규칙 기반 방식에서 벗어난 end-to-end 방식의 딥러닝 접근이 다수 시도되고 있으며, 언어·이미지·레이아웃 정보를 통합하는 멀티모달 모델이 등장하면서 문서 이해(Document Understanding)의 성능이 더욱 개선되고 있다. 그러나 이러한 모델들은 주로 텍스트 토큰 수준에 집중하기 때문에, 실제 문서 구조를 이루는 표(Table), 이미지(Image)와 같은시각적 구성요소를 정교하게 분리·해석하는 것에는 여전히 한계가 존재한다. 특히 한국어 행정·공공문서처럼 다양한 표 형태와 텍스트·이미지의 혼합 배치가 많은 문서에서는기존 CRAFT 모델과 같이 문자 중심 탐지만으로는 문서에 포함된 표나 이미지 영역의간섭으로 인해 문장 단위 재구성 및 구조 분석에 어려움이 따른다. 본 연구는 이러한 한계를 극복하기 위해 CRAFT 모델의 구조를 확장하여, 기존 RGB입력 채널 대신 명암(gray), 기울기(gradient), 고주파(high-pass) 성분을 입력으로 문서의 구조적 패턴 인식을 강화한 RA-TI CRAFT 모델을 제안한다. 종합하면, 제안된RA-TI CRAFT 모델은 문자·표·이미지 등 다양한 시각적 요소를 단일 모델에서 동시에처리할 수 있는 통합형 문서 레이아웃 분할 모델로서, 향후 문서 이해 과업을 위한 고품질 전처리 모듈로 활용될 가능성을 제시한다.
      번역하기

      컴퓨터 기술의 급격한 발전, 특히 GPU·TPU 기반 연산 처리 능력을 바탕으로 대규모데이터 학습을 통한 딥러닝 기법의 고도화는 컴퓨터 비전 영역 전반의 과업 수행능력을크게 향상시켜 왔다. ...

      컴퓨터 기술의 급격한 발전, 특히 GPU·TPU 기반 연산 처리 능력을 바탕으로 대규모데이터 학습을 통한 딥러닝 기법의 고도화는 컴퓨터 비전 영역 전반의 과업 수행능력을크게 향상시켜 왔다. 이에 따라 문서 처리 분야에서도 최근 전통적인 규칙 기반 방식에서 벗어난 end-to-end 방식의 딥러닝 접근이 다수 시도되고 있으며, 언어·이미지·레이아웃 정보를 통합하는 멀티모달 모델이 등장하면서 문서 이해(Document Understanding)의 성능이 더욱 개선되고 있다. 그러나 이러한 모델들은 주로 텍스트 토큰 수준에 집중하기 때문에, 실제 문서 구조를 이루는 표(Table), 이미지(Image)와 같은시각적 구성요소를 정교하게 분리·해석하는 것에는 여전히 한계가 존재한다. 특히 한국어 행정·공공문서처럼 다양한 표 형태와 텍스트·이미지의 혼합 배치가 많은 문서에서는기존 CRAFT 모델과 같이 문자 중심 탐지만으로는 문서에 포함된 표나 이미지 영역의간섭으로 인해 문장 단위 재구성 및 구조 분석에 어려움이 따른다. 본 연구는 이러한 한계를 극복하기 위해 CRAFT 모델의 구조를 확장하여, 기존 RGB입력 채널 대신 명암(gray), 기울기(gradient), 고주파(high-pass) 성분을 입력으로 문서의 구조적 패턴 인식을 강화한 RA-TI CRAFT 모델을 제안한다. 종합하면, 제안된RA-TI CRAFT 모델은 문자·표·이미지 등 다양한 시각적 요소를 단일 모델에서 동시에처리할 수 있는 통합형 문서 레이아웃 분할 모델로서, 향후 문서 이해 과업을 위한 고품질 전처리 모듈로 활용될 가능성을 제시한다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Recent advances in computing technology—particularly the rapid development of GPU/TPU-basedparallel processing—have significantly enhanced the capability of deep learning models trained onlarge-scale datasets. In the field of document analysis, this has accelerated a shift fromtraditional rule-based approaches toward end-to-end deep learning frameworks. With theemergence of multimodal models that jointly leverage linguistic, visual, and layoutrepresentations, performance in Document Understanding tasks has improved substantially.
      However, these models generally focus on token-level textual features, leaving notable limitationsin accurately detecting and separating visual structural components such as tables andembedded images. This challenge becomes more pronounced in Korean administrative and publicdocuments, where diverse table layouts and mixed arrangements of text and images frequentlyinterfere with line-level reconstruction and structural interpretation. Models such as CRAFT,which are optimized for character-centric detection, struggle to robustly isolate non-textualregions in such complex layouts. To address these limitations, this study proposes RA-TI CRAFT,an extended version of the original CRAFT architecture. The proposed model replaces the RGBinput with a multi-channel representation composed of gray, gradient, and high-pass features toenhance structural pattern recognition within document images. In summary, RA-TI CRAFT isdesigned as an integrated document layout analysis model capable of jointly detecting textual,tabular, and image regions within a single framework. This demonstrates its potential as ahigh-quality preprocessing module for downstream Document Understanding systems.
      번역하기

      Recent advances in computing technology—particularly the rapid development of GPU/TPU-basedparallel processing—have significantly enhanced the capability of deep learning models trained onlarge-scale datasets. In the field of document analysis, th...

      Recent advances in computing technology—particularly the rapid development of GPU/TPU-basedparallel processing—have significantly enhanced the capability of deep learning models trained onlarge-scale datasets. In the field of document analysis, this has accelerated a shift fromtraditional rule-based approaches toward end-to-end deep learning frameworks. With theemergence of multimodal models that jointly leverage linguistic, visual, and layoutrepresentations, performance in Document Understanding tasks has improved substantially.
      However, these models generally focus on token-level textual features, leaving notable limitationsin accurately detecting and separating visual structural components such as tables andembedded images. This challenge becomes more pronounced in Korean administrative and publicdocuments, where diverse table layouts and mixed arrangements of text and images frequentlyinterfere with line-level reconstruction and structural interpretation. Models such as CRAFT,which are optimized for character-centric detection, struggle to robustly isolate non-textualregions in such complex layouts. To address these limitations, this study proposes RA-TI CRAFT,an extended version of the original CRAFT architecture. The proposed model replaces the RGBinput with a multi-channel representation composed of gray, gradient, and high-pass features toenhance structural pattern recognition within document images. In summary, RA-TI CRAFT isdesigned as an integrated document layout analysis model capable of jointly detecting textual,tabular, and image regions within a single framework. This demonstrates its potential as ahigh-quality preprocessing module for downstream Document Understanding systems.

      더보기

      목차 (Table of Contents)

      • 1. 서론 5
      • 1.1 연구 배경 5
      • 1.2 연구 범위 6
      • 1.3 논문 구성 7
      • 2. 관련연구 8
      • 1. 서론 5
      • 1.1 연구 배경 5
      • 1.2 연구 범위 6
      • 1.3 논문 구성 7
      • 2. 관련연구 8
      • 2.1 문자 검출 기반 연구 8
      • 2.2 표 검출 및 구조 인식 연구 8
      • 2.3 문서 이해 모델 9
      • 3. RA-TI CRAFT 시스템 11
      • 3.1 제안 모델 구조의 필요성 11
      • 3.2 RA-TI CRAFT 시스템 구조(Proposed System) 12
      • 4. 실험 환경 및 데이터 구성 (Experiments) 16
      • 4.1 실험 데이터 구성 16
      • 4.2 실험 환경 17
      • 4.3 학습 설정 및 데이터 증강 18
      • 4.4 비교 실험 설계 18
      • 4.5 실험 결과 및 분석 19
      • 4.6 시각적 결과(Qualitative Analysis) 22
      • 5. 결론 및 향후 연구 (Conclusion and Future Works) 30
      • 5.1 결론 30
      • 5.2 한계 31
      • 5.3 연구의 의의 32
      • 5.4 향후 연구 방향 33
      • 참고 문헌 34
      • ABSTRACT 37
      • 표 차 례
      • [표 1] RA-TI CRAFT 모델 실험을 위한 데이터 셋 16
      • [표 2] CRAFT 그리고 RA-TI GGH, RGB 입력 별 성능 비교 21
      • [표 3] RA-TI(GGH) 사전학습과 랜덤 초기화 모델 성능 비교 22
      • [표 4] RA-TI(GGH) Non Pretrained cw 가중치 설정별 성능비교 22
      • 그 림 차 례
      • [그림 1] Craft 모델의 네트워크 아키텍처 개략도 13
      • [그림 2] 제안한 RA-TI CRAFT 모델의 네트워크 13
      • [그림 3] RA-TI CRAFT 모델 학습용 GT 생성 17
      • [그림 4] 제안 모델 성능 검증을 위한 원본 이미지 23
      • [그림 5] 제안 모델(입력 Gray, Grad, high-pass 학습)의 각 Class 검출 결과 24
      • [그림 6] RA-TI Craft(입력 RGB채널 학습) 모델의 Class 검출 결과 25
      • [그림 7] CRAFT 모델의 Region 영역 검출 결과 26
      • [그림 8] CRAFT 모델의 Region 영역 bound box 출력 결과 27
      • [그림 9] 제안 모델의 출력 정보를 이용해 각 Class 영역 구분 결과 28
      • [그림 10] 제안 모델의 출력을 활용하여 복원한 문서 29
      • [그림 11] Scan 문서 전처리 후 모델 출력 결과 31
      • [그림 12] (그림 12)의 결과물을 바탕으로 문서 Class 구분한 결과 32
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼