RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      한국어-중국어 코드스위칭 억제를 위한 NTP 기반 DPO 학습

      한글로보기

      https://www.riss.kr/link?id=T17371297

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      최근 거대 언어 모델(Large Language Models, LLMs)은 방대 한 학습 데이터를 바탕으로 다양한 자연어 처리(NLP) 과제에서 인간 수준의 성능을 입증하고 있다. 그러나 대부분의 오픈소스 다국어 LLM은 영어와 중국어 중심의 데이터로 사전 학습 (Pre-training)되어 있어, 상대적으로 데이터 비중이 적은 한국어 도메인에 적용할 경우 예기치 않은 오류가 발생한다. 특히 한국어 질의에 대해 답변을 생성하던 중 문맥과 관계없이 중국어 단어나 문장이 섞여 나오는 코드 스위칭(Code-switching) 현상은 모델의 실용성을 크게 저해하는 요인이다. 이는 단순한 생성 오류를 넘어 번역, 교육, 법률 및 비즈니스 문서 작성과 같이 높은 언어적 무결성이 요구되는 분야에서 사용자 신뢰도를 하락시키는 치명적인 문 제로 작용한다. 이에 본 연구에서는 모델이 오답을 생성하는 결정적 순간을 포 착하여 교정하는 NTP (Next Token Prediction) 기반의 DPO (Direct Preference Optimization) 학습 기법을 제안한다. 본 연구의 핵심은 모델이 한국어 응답을 생성하다가 중국어 토큰으로 전환되는 시점을 혼동점(Confusion Point)으로 정의하고, 이 를 데이터 구축의 핵심 지표로 삼은 점이다. 구체적으로, 사전 학 습된 모델의 다음 토큰 예측 확률을 분석하여 중국어 토큰이 처음 등장하는 구간을 탐지하였다. 이 혼동점을 기준으로 중국어가 포 함된 생성 결과는 거부 응답(Rejected)으로, 동일한 문맥에서 한국 어로 올바르게 이어진 결과는 선호 응답(Chosen)으로 구성한 NTP-CS 데이터셋을 제작하였다. 이는 전체 문장을 단순 번역하 는 기존 방식과 달리, 오류가 발생하는 국소적 지점을 정밀하게 타격하여 모델이 해당 분기점에서 올바른 경로를 선택하도록 유도 한다. 제안 방법의 유효성을 검증하기 위해 본 연구에서는 두 가지 베이스라인과 성능을 비교하였다. 첫째는 프롬프트 엔지니어링을 통해 임의로 코드 스위칭을 유도한 데이터셋(LLM-CS)이며, 둘째 는 전체 문장을 번역하여 구축한 데이터셋(LLM-TX)이다. 실험 결과, 본 논문에서 제안한 NTP-CS 방식으로 학습된 모델은 베이스라인 모델들에 비해 일관되게 높은 코드 스위칭 억제 성능을 보 였다. 특히 DPO 학습의 핵심 지표인 로그 확률(Log Probability) 분석 결과, NTP-CS 학습 모델은 Chosen 응답에 대해 양의 값을, Rejected 응답에 대해 음의 값을 나타내는 이상적인 패턴을 형성 하였다. 이는 모델이 한국어 문맥에서 중국어 토큰이 등장할 확률 을 효과적으로 낮추고, 한국어 토큰의 생성 확률을 높이는 방향으 로 최적화되었음을 시사한다. 결론적으로, 본 연구는 다국어 환경에서 발생하는 언어 간 간 섭 현상을 해결하기 위해 혼동점 기반의 데이터셋 구축과 선호도 최적화가 단순 번역 데이터 학습보다 월등히 효과적임을 입증하였 다. 본 연구의 결과는 향후 중국어 기반의 고성능 LLM을 한국어 환경에 도입할 때 발생하는 품질 격차를 줄이고, 다국어 모델의 한국어 생성 일관성을 향상시키는 데 중요한 기여를 할 것으로 기대된다.
      번역하기

      최근 거대 언어 모델(Large Language Models, LLMs)은 방대 한 학습 데이터를 바탕으로 다양한 자연어 처리(NLP) 과제에서 인간 수준의 성능을 입증하고 있다. 그러나 대부분의 오픈소스 다국어 LLM은 ...

      최근 거대 언어 모델(Large Language Models, LLMs)은 방대 한 학습 데이터를 바탕으로 다양한 자연어 처리(NLP) 과제에서 인간 수준의 성능을 입증하고 있다. 그러나 대부분의 오픈소스 다국어 LLM은 영어와 중국어 중심의 데이터로 사전 학습 (Pre-training)되어 있어, 상대적으로 데이터 비중이 적은 한국어 도메인에 적용할 경우 예기치 않은 오류가 발생한다. 특히 한국어 질의에 대해 답변을 생성하던 중 문맥과 관계없이 중국어 단어나 문장이 섞여 나오는 코드 스위칭(Code-switching) 현상은 모델의 실용성을 크게 저해하는 요인이다. 이는 단순한 생성 오류를 넘어 번역, 교육, 법률 및 비즈니스 문서 작성과 같이 높은 언어적 무결성이 요구되는 분야에서 사용자 신뢰도를 하락시키는 치명적인 문 제로 작용한다. 이에 본 연구에서는 모델이 오답을 생성하는 결정적 순간을 포 착하여 교정하는 NTP (Next Token Prediction) 기반의 DPO (Direct Preference Optimization) 학습 기법을 제안한다. 본 연구의 핵심은 모델이 한국어 응답을 생성하다가 중국어 토큰으로 전환되는 시점을 혼동점(Confusion Point)으로 정의하고, 이 를 데이터 구축의 핵심 지표로 삼은 점이다. 구체적으로, 사전 학 습된 모델의 다음 토큰 예측 확률을 분석하여 중국어 토큰이 처음 등장하는 구간을 탐지하였다. 이 혼동점을 기준으로 중국어가 포 함된 생성 결과는 거부 응답(Rejected)으로, 동일한 문맥에서 한국 어로 올바르게 이어진 결과는 선호 응답(Chosen)으로 구성한 NTP-CS 데이터셋을 제작하였다. 이는 전체 문장을 단순 번역하 는 기존 방식과 달리, 오류가 발생하는 국소적 지점을 정밀하게 타격하여 모델이 해당 분기점에서 올바른 경로를 선택하도록 유도 한다. 제안 방법의 유효성을 검증하기 위해 본 연구에서는 두 가지 베이스라인과 성능을 비교하였다. 첫째는 프롬프트 엔지니어링을 통해 임의로 코드 스위칭을 유도한 데이터셋(LLM-CS)이며, 둘째 는 전체 문장을 번역하여 구축한 데이터셋(LLM-TX)이다. 실험 결과, 본 논문에서 제안한 NTP-CS 방식으로 학습된 모델은 베이스라인 모델들에 비해 일관되게 높은 코드 스위칭 억제 성능을 보 였다. 특히 DPO 학습의 핵심 지표인 로그 확률(Log Probability) 분석 결과, NTP-CS 학습 모델은 Chosen 응답에 대해 양의 값을, Rejected 응답에 대해 음의 값을 나타내는 이상적인 패턴을 형성 하였다. 이는 모델이 한국어 문맥에서 중국어 토큰이 등장할 확률 을 효과적으로 낮추고, 한국어 토큰의 생성 확률을 높이는 방향으 로 최적화되었음을 시사한다. 결론적으로, 본 연구는 다국어 환경에서 발생하는 언어 간 간 섭 현상을 해결하기 위해 혼동점 기반의 데이터셋 구축과 선호도 최적화가 단순 번역 데이터 학습보다 월등히 효과적임을 입증하였 다. 본 연구의 결과는 향후 중국어 기반의 고성능 LLM을 한국어 환경에 도입할 때 발생하는 품질 격차를 줄이고, 다국어 모델의 한국어 생성 일관성을 향상시키는 데 중요한 기여를 할 것으로 기대된다.

      더보기

      목차 (Table of Contents)

      • 국문초록 i
      • 목 차 ii
      • 표 목 차 iii
      • 그림목차 iv
      • 제 1장 서론 1
      • 국문초록 i
      • 목 차 ii
      • 표 목 차 iii
      • 그림목차 iv
      • 제 1장 서론 1
      • 1.1. 연구 배경 및 필요성 1
      • 1.2. 제안 방법 1
      • 1.3. 기여점 2
      • 1.4. 논문 구성 2
      • 제 2장 배경 및 관련 연구 4
      • 2.1. 선호도 최적화 4
      • 2.1.1. RLHP 4
      • 2.1.2. DPO 4
      • 2.1.3. ORPO 5
      • 2.2. 코드스위칭 선행 연구 및 평가지표 6
      • 2.1.1. Confusion Point 6
      • 2.1.2. Controlling Language Confusion 6
      • 2.1.3. Language Confusion Benchmark 7
      • 제 3장 코드스위칭 원인 분석 8
      • 3.1. Next Token Prediction (NTP) 8
      • 3.1.1. 하이퍼파라미터 설정: T=0.3, P=0.75 8
      • 3.1.2. 하이퍼파라미터 설정: T=1, P=1 9
      • 3.2. 결과 분석 9
      • 제 4장 NTP 기반 데이터셋 제작 및 DPO 학습 11
      • 4.1. 데이터셋 11
      • 4.1.1. 사용 데이터셋 11
      • 4.1.2. 데이터셋 구축 방법: NTP-CS 11
      • 4.1.3. 데이터셋 구축 방법: LLM-CS 12
      • 4.1.4. 데이터셋 구축 방법: LLM-TX 13
      • 4.2. 실험 및 평가 15
      • 4.2.1. 실험 설정 16
      • 4.2.2. 실험 결과 17
      • 4.3. 결과 분석 19
      • 4.3.1. NTP-CS vs LLM-CS 20
      • 4.3.2. NTP-CS vs LLM-TX 20
      • 제 5장 결론 21
      • 참고문헌 22
      • Abstract 25
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼