검색 증강 질의응답을 위한 문맥 잠재벡터 기반 Hyper-LoRA 사이드 튜닝 언어모델 : 동결 언어모델 FFN에 조건부 저랭크 잔차를 주입하는 ContextSide-HyperLoRA = ContextSide-HyperLoRA: Latent-Context Side Tuning for Retrieval-Augmented Question Answering|RISS 상세보기

국문 초록 (Abstract)

검색 증강 질문 응답은 검색된 구절에 생성 조건을 부여하여 사실성을 향상시키 지만, 작은 언어 모델의 경우 상위 k개의 구절을 프롬프트에 연결하면 입력 길이가 크게 증가하고 효과적인 지식 통합이 복잡해집니다. 본 논문에서는 검색된 구절을 압축 잠재 벡터로 요약하고, 검색 조건 잔차를 즉시 확장하지 않고 고정된 기본 언어 모델에 주입하는 ContextSide-HyperLoRA를 제안합니다. 질문과 검색된 구절이 주어지면, 우리는 기본 모델의 임베딩(또는 숨겨진 상태) 을 사용하여 각 텍스트를 고정 차원 벡터로 인코딩하고, 선택적으로 통로 벡터에 대한 자기 주의를 통해 다중 홉 혼합을 적용하며, 소프트맥스 가중 풀링을 통해 단일 문맥 벡터를 구축합니다. 여기서 각 통로 벡터의 평균 활성화로부터 가중치 가 도출됩니다. 문맥 벡터는 선택적으로 질문 벡터와 연결되고 작은 2계층 MLP 오토인코더에 의해 압축되어 MSE 재구성 목표로 훈련된 zctx를 얻습니다. 각 FFN(MLP) 계층에 대해 하이퍼네트워크는 zctx를 소비하고, 저순위 행렬 쌍 (A, B)을 생성하여 토큰 은닉 상태에 대한 LoRA 스타일의 잔여 업데이트를 생성합니다. 잔여 행렬은 학습 가능한 계층별 시그모이드 게이트와 전역 스케일을 통해 FFN 출력에 추가됩니다. 이 메커니즘은 포워드 훅을 통해 구현되어 모든 기본 매개변수를 동결하면서 다양한 Transformer LM에 드롭인 적용이 가능합니 다. 훈련은 응답-토큰 교차 엔트로피와 재구성 손실(및 선택적 게이트 정규화)을 사용하여 오토인코더, 하이퍼네트워크 및 게이트만을 최적화합니다. 우리는 자연 질문, TriviaQA, HotpotQA, PopQA를 LLaMA 및 Qwen 기본 모델과 비교하여 무맥락 기준선, LoRA 미세 조정 및 GenPoE와 비교합니다. 결과 는 ContextSide-HyperLoRA가 질문 전용 프롬프트(ctx=0 사용)에서도 EM/F1 을 지속적으로 개선함을 보여주며, 검색 지식이 명시적인 프롬프트 증강이 아닌 잠재적 매개변수 조건화를 통해 효과적으로 통합될 수 있음을 보여줍니다

번역하기

검색 증강 질문 응답은 검색된 구절에 생성 조건을 부여하여 사실성을 향상시키 지만, 작은 언어 모델의 경우 상위 k개의 구절을 프롬프트에 연결하면 입력 길이가 크게 증가하고 효과적인 ...

목차 (Table of Contents)

제1장 서론 1
1.1 연구 배경 및 필요성 1
1.2 문제 정의 2
1.3 제안 방법 개요: ContextSide-HyperLoRA 2
1.4 연구 기여 3

제1장 서론 1
1.1 연구 배경 및 필요성 1
1.2 문제 정의 2
1.3 제안 방법 개요: ContextSide-HyperLoRA 2
1.4 연구 기여 3
1.5 논문 구성 3
제2장 관련 연구 5
2.1 개방형 질의응답과 검색 증강 생성 5
2.2 긴 문맥 비용과 효율적 문맥 활용 6
2.3 RAG 강건화: 선택, 무시, 검증 7
2.4 파라미터 효율 적응과 조건부 사이드 튜닝 8
2.5 파라미터 수준 검색 증강과 지식 편집 9
2.6 본 연구의 위치와 차별점 10
제3장 제안 방법 11
3.1 문제 설정 및 표기 11
3.2 문맥 잠재벡터 인코더 12
3.3 FFN 보정: ContextSide-HyperLoRA 잔차 주입 14
3.4 학습 목표 16
3.5 추론 절차 17
제4장 실험 및 결과 18
4.1 실험 설정 18
4.1.1 데이터셋 및 검색 문맥 18
4.1.2 모델 및 생성(Decoding) 설정 18
4.1.3 평가 지표 및 비교 설정 19
4.2 정확도 결과 21
4.2.1 단일 홉 질의응답 (NQ, TriviaQA) 21
4.2.2 다중 홉/long-tail 질의응답 (HotpotQA, PopQA) 22
4.2.3 질의 미사용(Query-free) 어댑터 생성 ablation 24
제5장 결론 27
5.1 연구 요약 27
5.2 연구의 주요 기여 28
5.3 연구의 한계 29
5.4 향후 연구 방향 30
5.5 맺음말 31
부록 A 추가 실험 설정 32
A.1 데이터셋 상세 설명 32
A.2 학습 및 평가 하이퍼파라미터 32
A.2.1 공통 설정 33
A.2.2 ContextSide-HyperLoRA 학습 설정 33
A.2.3 LoRA 미세조정(LoRA-FT) 학습 설정 34
A.3 프롬프트 템플릿 36
A.4 실험 코드 및 실행 옵션 36
A.4.1 ContextSide-HyperLoRA 학습 코드 36

상세검색

RISS 보유자료

상세검색

해외전자자료

검색 증강 질의응답을 위한 문맥 잠재벡터 기반 Hyper-LoRA 사이드 튜닝 언어모델 : 동결 언어모델 FFN에 조건부 저랭크 잔차를 주입하는 ContextSide-HyperLoRA = ContextSide-HyperLoRA: Latent-Context Side Tuning for Retrieval-Augmented Question Answering

부가정보

분석정보

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료