RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      멀티모달 입력과 대규모 언어 모델을 활용한 정보 추출 성능 개선에 관한 연구

      한글로보기

      https://www.riss.kr/link?id=T17371202

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      본 연구는 대규모 언어 모델(LLM)을 활용한 정보 추출 분야에서 두 가지 핵심 과제를 다룬다. 첫째, LLM 기반 슬롯 필링에서 발생하는 재현율-정밀도 균형 문제를 해결하고, 둘째, 검색 증강 생성(RAG) 시스템에서 표 데이터의 효과적인 이해와 활용을 가능하게 한다.
      LLM 기반 슬롯 필링에서 단일 프롬프트 접근법은 슬롯 중복 할당, 누락, 과도한 예측 등의 문제로 인해 재현율과 정밀도 간의 균형을 달성하기 어렵다. 본 연구는 이러한 한계를 극복하기 위해 Diversified Prompting 전략을 제안한다.
      제안 방법은 슬롯 후보를 균등하게 분할하여 처리하는 Sub-prompt 방법과 7가지 프롬프트 템플릿을 통해 다양한 관점에서 예측을 수행하는 Multi-view Prompt 접근법을 결합한다. Threshold 기반 majority voting을 통해 예측 결과를 통합함으로써 과도한 예측을 억제하고 예측 일관성을 향상시킨다.
      SNIPS, MASSIVE, MultiWoz 데이터셋을 사용한 실험에서 제안 방법은 다양한 오픈소스 LLM에서 일관된 성능 향상을 보였다. SNIPS 데이터셋에서 Llama3-8B 모델은 baseline 대비 F1 점수가 6.5% 향상되었고, MASSIVE에서 Gemma-2-9b는 3.1% 향상을 달성하였다. MultiWoz에서는 Bloomz-7b1이 17.4%의 큰 폭 향상을 기록하였다. Threshold-3 설정이 18개 실험 구성 중 14개에서 최적 성능을 보여 재현율과 정밀도 간 최적의 균형을 제공함을 확인하였다.
      표 데이터 처리에서 텍스트 전용 LLM은 OCR을 통한 텍스트 변환 과정에서 시각적 구조 정보가 손실되고, 병합된 셀이나 계층 구조를 정확히 표현하기 어렵다는 한계가 있다. 본 연구는 Vision-Language Model(VLM)을 활용하여 표를 이미지 형태로 직접 처리함으로써 시각적 구조 정보를 보존하고 context 길이 증가 문제를 해결한다.
      VLM의 표 이해 능력을 향상시키기 위해 질문 변형(Question Variation)과 이미지 병합(Image Merging)이라는 두 가지 데이터 증강 기법을 제안한다. 질문 변형은 동일한 표에 대해 다양한 형태의 질문을 생성하여 모델이 표의 정보를 다각도로 이해하도록 돕는다. 이미지 병합은 서로 다른 도메인의 표 이미지를 결합하여 모델의 다중 표 처리 능력과 도메인 간 일반화 성능을 강화한다.Qwen2-VL 모델에 LoRA 파인튜닝을 적용하여 단계별 학습을 수행하였다.
      10개의 벤치마크 데이터셋을 사용한 실험에서 제안 방법은 OCR 기반 텍스트 접근법과 기존 VLM 모델을 크게 능가하는 성능을 보였다. 질문 변형 기법은 FeTaQA-BLEU에서 Basemodel 대비 68% 향상을, 이미지 병합 기법은 TABMWP에서 45.2점 향상을 달성하였다. 두 기법을 통합한 모델은 WTQ와 HiTab에서 Table-LLaVA 7B를 능가하는 성능을 기록하였다.
      본 연구는 텍스트 발화와 표 데이터 모두에서 LLM 기반 정보 추출의 정확도와 효율성을 향상시키는 실용적이고 확장 가능한 방법론을 제시함으로써, 차세대 대화형 AI 시스템의 실용성을 강화하는 데 기여한다.
      번역하기

      본 연구는 대규모 언어 모델(LLM)을 활용한 정보 추출 분야에서 두 가지 핵심 과제를 다룬다. 첫째, LLM 기반 슬롯 필링에서 발생하는 재현율-정밀도 균형 문제를 해결하고, 둘째, 검색 증강 생...

      본 연구는 대규모 언어 모델(LLM)을 활용한 정보 추출 분야에서 두 가지 핵심 과제를 다룬다. 첫째, LLM 기반 슬롯 필링에서 발생하는 재현율-정밀도 균형 문제를 해결하고, 둘째, 검색 증강 생성(RAG) 시스템에서 표 데이터의 효과적인 이해와 활용을 가능하게 한다.
      LLM 기반 슬롯 필링에서 단일 프롬프트 접근법은 슬롯 중복 할당, 누락, 과도한 예측 등의 문제로 인해 재현율과 정밀도 간의 균형을 달성하기 어렵다. 본 연구는 이러한 한계를 극복하기 위해 Diversified Prompting 전략을 제안한다.
      제안 방법은 슬롯 후보를 균등하게 분할하여 처리하는 Sub-prompt 방법과 7가지 프롬프트 템플릿을 통해 다양한 관점에서 예측을 수행하는 Multi-view Prompt 접근법을 결합한다. Threshold 기반 majority voting을 통해 예측 결과를 통합함으로써 과도한 예측을 억제하고 예측 일관성을 향상시킨다.
      SNIPS, MASSIVE, MultiWoz 데이터셋을 사용한 실험에서 제안 방법은 다양한 오픈소스 LLM에서 일관된 성능 향상을 보였다. SNIPS 데이터셋에서 Llama3-8B 모델은 baseline 대비 F1 점수가 6.5% 향상되었고, MASSIVE에서 Gemma-2-9b는 3.1% 향상을 달성하였다. MultiWoz에서는 Bloomz-7b1이 17.4%의 큰 폭 향상을 기록하였다. Threshold-3 설정이 18개 실험 구성 중 14개에서 최적 성능을 보여 재현율과 정밀도 간 최적의 균형을 제공함을 확인하였다.
      표 데이터 처리에서 텍스트 전용 LLM은 OCR을 통한 텍스트 변환 과정에서 시각적 구조 정보가 손실되고, 병합된 셀이나 계층 구조를 정확히 표현하기 어렵다는 한계가 있다. 본 연구는 Vision-Language Model(VLM)을 활용하여 표를 이미지 형태로 직접 처리함으로써 시각적 구조 정보를 보존하고 context 길이 증가 문제를 해결한다.
      VLM의 표 이해 능력을 향상시키기 위해 질문 변형(Question Variation)과 이미지 병합(Image Merging)이라는 두 가지 데이터 증강 기법을 제안한다. 질문 변형은 동일한 표에 대해 다양한 형태의 질문을 생성하여 모델이 표의 정보를 다각도로 이해하도록 돕는다. 이미지 병합은 서로 다른 도메인의 표 이미지를 결합하여 모델의 다중 표 처리 능력과 도메인 간 일반화 성능을 강화한다.Qwen2-VL 모델에 LoRA 파인튜닝을 적용하여 단계별 학습을 수행하였다.
      10개의 벤치마크 데이터셋을 사용한 실험에서 제안 방법은 OCR 기반 텍스트 접근법과 기존 VLM 모델을 크게 능가하는 성능을 보였다. 질문 변형 기법은 FeTaQA-BLEU에서 Basemodel 대비 68% 향상을, 이미지 병합 기법은 TABMWP에서 45.2점 향상을 달성하였다. 두 기법을 통합한 모델은 WTQ와 HiTab에서 Table-LLaVA 7B를 능가하는 성능을 기록하였다.
      본 연구는 텍스트 발화와 표 데이터 모두에서 LLM 기반 정보 추출의 정확도와 효율성을 향상시키는 실용적이고 확장 가능한 방법론을 제시함으로써, 차세대 대화형 AI 시스템의 실용성을 강화하는 데 기여한다.

      더보기

      목차 (Table of Contents)

      • 제 1장 서론 1
      • 1.1 연구의 배경 및 필요성 1
      • 1.2 연구의 목적 2
      • 1.3 연구의 기여점 2
      • 1.4 논문의 구성 3
      • 제 1장 서론 1
      • 1.1 연구의 배경 및 필요성 1
      • 1.2 연구의 목적 2
      • 1.3 연구의 기여점 2
      • 1.4 논문의 구성 3
      • 제 2장 관련 연구 5
      • 2.1 정보 추출과 대규모 언어 모델 5
      • 2.2 Slot Filling 관련 연구 5
      • 2.2.1 PLM 기반 Slot Filling 5
      • 2.2.2 Few-shot Learning for Slot Filling 6
      • 2.2.3 LLM 및 Prompt 기반 Slot Filling 6
      • 2.3 Multi-view Prompting과 Voting 기반 집계 7
      • 2.4 표 데이터 이해 관련 연구 8
      • 2.4.1 텍스트 기반 표 처리 8
      • 2.4.2 Vision-Language Model 기반 표 이해 9
      • 제 3장 Diversified Prompting 기반 Slot Filling 11
      • 3.1 문제 정의 11
      • 3.1.1 Slot Filling 과제 정의 11
      • 3.1.2 기존 Single Prompt 방법의 문제점 12
      • 3.2 제안 방법: Diversified Output Generation 13
      • 3.2.1 Problem Decomposition: Sub-prompt 13
      • 3.2.2 Output Variation: Multi-view Prompt 14
      • 3.2.3 Multi-output 통합 및 Consensus 구축 15
      • 3.3 구현 세부사항 17
      • 3.3.1 Sub-prompt 생성 방법 17
      • 3.3.2 Fixed Few-shot 예제 선택 18
      • 3.3.3 7개 Prompt 구성 19
      • 3.4 실험 설계 23
      • 3.4.1 데이터셋 23
      • 3.4.2 실험 모델 23
      • 3.4.3 평가 지표 (Recall, Precision, F1) 24
      • 3.4.4 실험 환경 및 설정 25
      • 3.5 실험 결과 및 분석 26
      • 3.5.1 Instruction-tuned Model의 효과 26
      • 3.5.2 Few-shot Learning 접근법 비교 27
      • 3.5.3 Sub-prompt 접근법 결과 27
      • 3.5.4 Few-shot + Sub-prompt (SP-C) 결과 29
      • 3.5.5 Multi-view Prompt with Voting 결과 30
      • 3.5.6 모델 크기별 실험 결과 31
      • 3.5.7 Voting 분석 34
      • 제 4장 멀티모달 기반 표 데이터 이해 39
      • 4.1 문제 정의 39
      • 4.1.1 LLM의 표 데이터 처리 문제 39
      • 4.1.2 텍스트 변환 방식의 한계 41
      • 4.2 제안 방법 42
      • 4.2.1 Vision-Language Model 기반 접근 42
      • 4.2.2 단계별 학습 전략 43
      • 4.3 실험 설계 45
      • 4.3.1 데이터셋 구성 45
      • 4.3.2 OCR 도구 46
      • 4.3.3 모델 구성 및 학습 설정 47
      • 4.3.4 평가 지표 48
      • 4.4 실험 결과 및 분석 49
      • 4.4.1 텍스트 기반 방법 비교 49
      • 4.4.2 멀티모달 방법 비교 49
      • 제 5장 결론 52
      • 참고문헌 54
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼