멀티모달 입력과 대규모 언어 모델을 활용한 정보 추출 성능 개선에 관한 연구|RISS 상세보기

국문 초록 (Abstract)

본 연구는 대규모 언어 모델(LLM)을 활용한 정보 추출 분야에서 두 가지 핵심 과제를 다룬다. 첫째, LLM 기반 슬롯 필링에서 발생하는 재현율-정밀도 균형 문제를 해결하고, 둘째, 검색 증강 생성(RAG) 시스템에서 표 데이터의 효과적인 이해와 활용을 가능하게 한다.
LLM 기반 슬롯 필링에서 단일 프롬프트 접근법은 슬롯 중복 할당, 누락, 과도한 예측 등의 문제로 인해 재현율과 정밀도 간의 균형을 달성하기 어렵다. 본 연구는 이러한 한계를 극복하기 위해 Diversified Prompting 전략을 제안한다.
제안 방법은 슬롯 후보를 균등하게 분할하여 처리하는 Sub-prompt 방법과 7가지 프롬프트 템플릿을 통해 다양한 관점에서 예측을 수행하는 Multi-view Prompt 접근법을 결합한다. Threshold 기반 majority voting을 통해 예측 결과를 통합함으로써 과도한 예측을 억제하고 예측 일관성을 향상시킨다.
SNIPS, MASSIVE, MultiWoz 데이터셋을 사용한 실험에서 제안 방법은 다양한 오픈소스 LLM에서 일관된 성능 향상을 보였다. SNIPS 데이터셋에서 Llama3-8B 모델은 baseline 대비 F1 점수가 6.5% 향상되었고, MASSIVE에서 Gemma-2-9b는 3.1% 향상을 달성하였다. MultiWoz에서는 Bloomz-7b1이 17.4%의 큰 폭 향상을 기록하였다. Threshold-3 설정이 18개 실험 구성 중 14개에서 최적 성능을 보여 재현율과 정밀도 간 최적의 균형을 제공함을 확인하였다.
표 데이터 처리에서 텍스트 전용 LLM은 OCR을 통한 텍스트 변환 과정에서 시각적 구조 정보가 손실되고, 병합된 셀이나 계층 구조를 정확히 표현하기 어렵다는 한계가 있다. 본 연구는 Vision-Language Model(VLM)을 활용하여 표를 이미지 형태로 직접 처리함으로써 시각적 구조 정보를 보존하고 context 길이 증가 문제를 해결한다.
VLM의 표 이해 능력을 향상시키기 위해 질문 변형(Question Variation)과 이미지 병합(Image Merging)이라는 두 가지 데이터 증강 기법을 제안한다. 질문 변형은 동일한 표에 대해 다양한 형태의 질문을 생성하여 모델이 표의 정보를 다각도로 이해하도록 돕는다. 이미지 병합은 서로 다른 도메인의 표 이미지를 결합하여 모델의 다중 표 처리 능력과 도메인 간 일반화 성능을 강화한다.Qwen2-VL 모델에 LoRA 파인튜닝을 적용하여 단계별 학습을 수행하였다.
10개의 벤치마크 데이터셋을 사용한 실험에서 제안 방법은 OCR 기반 텍스트 접근법과 기존 VLM 모델을 크게 능가하는 성능을 보였다. 질문 변형 기법은 FeTaQA-BLEU에서 Basemodel 대비 68% 향상을, 이미지 병합 기법은 TABMWP에서 45.2점 향상을 달성하였다. 두 기법을 통합한 모델은 WTQ와 HiTab에서 Table-LLaVA 7B를 능가하는 성능을 기록하였다.
본 연구는 텍스트 발화와 표 데이터 모두에서 LLM 기반 정보 추출의 정확도와 효율성을 향상시키는 실용적이고 확장 가능한 방법론을 제시함으로써, 차세대 대화형 AI 시스템의 실용성을 강화하는 데 기여한다.

번역하기

본 연구는 대규모 언어 모델(LLM)을 활용한 정보 추출 분야에서 두 가지 핵심 과제를 다룬다. 첫째, LLM 기반 슬롯 필링에서 발생하는 재현율-정밀도 균형 문제를 해결하고, 둘째, 검색 증강 생...

목차 (Table of Contents)