RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색 증강 질의응답을 위한 문맥 잠재벡터 기반 Hyper-LoRA 사이드 튜닝 언어모델 : 동결 언어모델 FFN에 조건부 저랭크 잔차를 주입하는 ContextSide-HyperLoRA = ContextSide-HyperLoRA: Latent-Context Side Tuning for Retrieval-Augmented Question Answering

      한글로보기

      https://www.riss.kr/link?id=T17369930

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      검색 증강 질문 응답은 검색된 구절에 생성 조건을 부여하여 사실성을 향상시키 지만, 작은 언어 모델의 경우 상위 k개의 구절을 프롬프트에 연결하면 입력 길이가 크게 증가하고 효과적인 지식 통합이 복잡해집니다. 본 논문에서는 검색된 구절을 압축 잠재 벡터로 요약하고, 검색 조건 잔차를 즉시 확장하지 않고 고정된 기본 언어 모델에 주입하는 ContextSide-HyperLoRA를 제안합니다. 질문과 검색된 구절이 주어지면, 우리는 기본 모델의 임베딩(또는 숨겨진 상태) 을 사용하여 각 텍스트를 고정 차원 벡터로 인코딩하고, 선택적으로 통로 벡터에 대한 자기 주의를 통해 다중 홉 혼합을 적용하며, 소프트맥스 가중 풀링을 통해 단일 문맥 벡터를 구축합니다. 여기서 각 통로 벡터의 평균 활성화로부터 가중치 가 도출됩니다. 문맥 벡터는 선택적으로 질문 벡터와 연결되고 작은 2계층 MLP 오토인코더에 의해 압축되어 MSE 재구성 목표로 훈련된 zctx를 얻습니다. 각 FFN(MLP) 계층에 대해 하이퍼네트워크는 zctx를 소비하고, 저순위 행렬 쌍 (A, B)을 생성하여 토큰 은닉 상태에 대한 LoRA 스타일의 잔여 업데이트를 생성합니다. 잔여 행렬은 학습 가능한 계층별 시그모이드 게이트와 전역 스케일을 통해 FFN 출력에 추가됩니다. 이 메커니즘은 포워드 훅을 통해 구현되어 모든 기본 매개변수를 동결하면서 다양한 Transformer LM에 드롭인 적용이 가능합니 다. 훈련은 응답-토큰 교차 엔트로피와 재구성 손실(및 선택적 게이트 정규화)을 사용하여 오토인코더, 하이퍼네트워크 및 게이트만을 최적화합니다. 우리는 자연 질문, TriviaQA, HotpotQA, PopQA를 LLaMA 및 Qwen 기본 모델과 비교하여 무맥락 기준선, LoRA 미세 조정 및 GenPoE와 비교합니다. 결과 는 ContextSide-HyperLoRA가 질문 전용 프롬프트(ctx=0 사용)에서도 EM/F1 을 지속적으로 개선함을 보여주며, 검색 지식이 명시적인 프롬프트 증강이 아닌 잠재적 매개변수 조건화를 통해 효과적으로 통합될 수 있음을 보여줍니다
      번역하기

      검색 증강 질문 응답은 검색된 구절에 생성 조건을 부여하여 사실성을 향상시키 지만, 작은 언어 모델의 경우 상위 k개의 구절을 프롬프트에 연결하면 입력 길이가 크게 증가하고 효과적인 ...

      검색 증강 질문 응답은 검색된 구절에 생성 조건을 부여하여 사실성을 향상시키 지만, 작은 언어 모델의 경우 상위 k개의 구절을 프롬프트에 연결하면 입력 길이가 크게 증가하고 효과적인 지식 통합이 복잡해집니다. 본 논문에서는 검색된 구절을 압축 잠재 벡터로 요약하고, 검색 조건 잔차를 즉시 확장하지 않고 고정된 기본 언어 모델에 주입하는 ContextSide-HyperLoRA를 제안합니다. 질문과 검색된 구절이 주어지면, 우리는 기본 모델의 임베딩(또는 숨겨진 상태) 을 사용하여 각 텍스트를 고정 차원 벡터로 인코딩하고, 선택적으로 통로 벡터에 대한 자기 주의를 통해 다중 홉 혼합을 적용하며, 소프트맥스 가중 풀링을 통해 단일 문맥 벡터를 구축합니다. 여기서 각 통로 벡터의 평균 활성화로부터 가중치 가 도출됩니다. 문맥 벡터는 선택적으로 질문 벡터와 연결되고 작은 2계층 MLP 오토인코더에 의해 압축되어 MSE 재구성 목표로 훈련된 zctx를 얻습니다. 각 FFN(MLP) 계층에 대해 하이퍼네트워크는 zctx를 소비하고, 저순위 행렬 쌍 (A, B)을 생성하여 토큰 은닉 상태에 대한 LoRA 스타일의 잔여 업데이트를 생성합니다. 잔여 행렬은 학습 가능한 계층별 시그모이드 게이트와 전역 스케일을 통해 FFN 출력에 추가됩니다. 이 메커니즘은 포워드 훅을 통해 구현되어 모든 기본 매개변수를 동결하면서 다양한 Transformer LM에 드롭인 적용이 가능합니 다. 훈련은 응답-토큰 교차 엔트로피와 재구성 손실(및 선택적 게이트 정규화)을 사용하여 오토인코더, 하이퍼네트워크 및 게이트만을 최적화합니다. 우리는 자연 질문, TriviaQA, HotpotQA, PopQA를 LLaMA 및 Qwen 기본 모델과 비교하여 무맥락 기준선, LoRA 미세 조정 및 GenPoE와 비교합니다. 결과 는 ContextSide-HyperLoRA가 질문 전용 프롬프트(ctx=0 사용)에서도 EM/F1 을 지속적으로 개선함을 보여주며, 검색 지식이 명시적인 프롬프트 증강이 아닌 잠재적 매개변수 조건화를 통해 효과적으로 통합될 수 있음을 보여줍니다

      더보기

      목차 (Table of Contents)

      • 제1장 서론 1
      • 1.1 연구 배경 및 필요성 1
      • 1.2 문제 정의 2
      • 1.3 제안 방법 개요: ContextSide-HyperLoRA 2
      • 1.4 연구 기여 3
      • 제1장 서론 1
      • 1.1 연구 배경 및 필요성 1
      • 1.2 문제 정의 2
      • 1.3 제안 방법 개요: ContextSide-HyperLoRA 2
      • 1.4 연구 기여 3
      • 1.5 논문 구성 3
      • 제2장 관련 연구 5
      • 2.1 개방형 질의응답과 검색 증강 생성 5
      • 2.2 긴 문맥 비용과 효율적 문맥 활용 6
      • 2.3 RAG 강건화: 선택, 무시, 검증 7
      • 2.4 파라미터 효율 적응과 조건부 사이드 튜닝 8
      • 2.5 파라미터 수준 검색 증강과 지식 편집 9
      • 2.6 본 연구의 위치와 차별점 10
      • 제3장 제안 방법 11
      • 3.1 문제 설정 및 표기 11
      • 3.2 문맥 잠재벡터 인코더 12
      • 3.3 FFN 보정: ContextSide-HyperLoRA 잔차 주입 14
      • 3.4 학습 목표 16
      • 3.5 추론 절차 17
      • 제4장 실험 및 결과 18
      • 4.1 실험 설정 18
      • 4.1.1 데이터셋 및 검색 문맥 18
      • 4.1.2 모델 및 생성(Decoding) 설정 18
      • 4.1.3 평가 지표 및 비교 설정 19
      • 4.2 정확도 결과 21
      • 4.2.1 단일 홉 질의응답 (NQ, TriviaQA) 21
      • 4.2.2 다중 홉/long-tail 질의응답 (HotpotQA, PopQA) 22
      • 4.2.3 질의 미사용(Query-free) 어댑터 생성 ablation 24
      • 제5장 결론 27
      • 5.1 연구 요약 27
      • 5.2 연구의 주요 기여 28
      • 5.3 연구의 한계 29
      • 5.4 향후 연구 방향 30
      • 5.5 맺음말 31
      • 부록 A 추가 실험 설정 32
      • A.1 데이터셋 상세 설명 32
      • A.2 학습 및 평가 하이퍼파라미터 32
      • A.2.1 공통 설정 33
      • A.2.2 ContextSide-HyperLoRA 학습 설정 33
      • A.2.3 LoRA 미세조정(LoRA-FT) 학습 설정 34
      • A.3 프롬프트 템플릿 36
      • A.4 실험 코드 및 실행 옵션 36
      • A.4.1 ContextSide-HyperLoRA 학습 코드 36
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼