RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      통계적 모델에 기반을 둔 언어모델 적응에 대한 연구

      한글로보기

      https://www.riss.kr/link?id=A102598737

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언어모델 적응 방법 으로 MAP 적응 알고리즘을 제안하였고 언어모델을 적응하지 않을 경우 및 전통적인 동적 주변 적응 방식과 비교하 였다. 성능 실험을 위해서 먼저 9천만 문장을 사용하여 베이스라인 언어 모델을 구했고 동일한 도메인에서 1천만 문장으로 시험한 결과 복잡도가 393.6 ppl(perplexity)을 구할 수 있었다. 베이스라인 언어 모델을 사용하여 SMS 분야로 시험한 결과가 적응 전 673.1 ppl에서 동적 주변적응을 하였을 경우에는 338.2 ppl, MAP 적응 알 고리즘을 사용한 경우에는 282.8 ppl이 되었다. 또한 동영상 강의 문장을 사용할 경우에도 적응 전에는 1340 ppl 을 보였으나 MAP 알고리즘에 의한 언어 적응 후에는 219.7ppl로 나왔다. 결론적으로 한국어에서 WPM을 기본 단위로 사용하고 MAP 언어모델 적응을 한 경우에는 베이스라인 언어모델의 복잡도보다 SMS, 동영상 각각의 도메 인에서 28.2%, 44.2% 감소되었다.
      번역하기

      본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언...

      본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언어모델 적응 방법 으로 MAP 적응 알고리즘을 제안하였고 언어모델을 적응하지 않을 경우 및 전통적인 동적 주변 적응 방식과 비교하 였다. 성능 실험을 위해서 먼저 9천만 문장을 사용하여 베이스라인 언어 모델을 구했고 동일한 도메인에서 1천만 문장으로 시험한 결과 복잡도가 393.6 ppl(perplexity)을 구할 수 있었다. 베이스라인 언어 모델을 사용하여 SMS 분야로 시험한 결과가 적응 전 673.1 ppl에서 동적 주변적응을 하였을 경우에는 338.2 ppl, MAP 적응 알 고리즘을 사용한 경우에는 282.8 ppl이 되었다. 또한 동영상 강의 문장을 사용할 경우에도 적응 전에는 1340 ppl 을 보였으나 MAP 알고리즘에 의한 언어 적응 후에는 219.7ppl로 나왔다. 결론적으로 한국어에서 WPM을 기본 단위로 사용하고 MAP 언어모델 적응을 한 경우에는 베이스라인 언어모델의 복잡도보다 SMS, 동영상 각각의 도메 인에서 28.2%, 44.2% 감소되었다.

      더보기

      다국어 초록 (Multilingual Abstract)

      In this paper, we propose a Korean language model adaptation based on maximum a priori (MAP) estimation. The word-piece model (WPM) based on the statistical characteristic is proposed to use as basic units for language model. And we have compared our proposed MAP adaption algorithm with dynamic marginal adaptation algorithm for our language model adaption as well as language model without adaptation. For this purpose, we have built a baseline language model using 90 million sentences, which yields the perplexity (ppl) of 393.6 when experimental 10 million sentences are used as test sentences in the same domain. In the domain of short message service (SMS), we get the ppl of 673.1 when the language adaptation is not applied. However we can get the ppl of 282.8 after MAP adaption algorithm, the ppl of 338.2 after dynamic marginal adaption algorithm, respectively. And in the domain of video lecture, we get the same trend of performance, in which the ppl of 1340 before language adaptation reduces to the ppl of 219.7 after MAP language adaptation. In conclusion, MAP language adaptation algorithm yields ppl reduction of 28.2 % in the domain of SMS, 44.2 % in the domain of video lecture, respectively.
      번역하기

      In this paper, we propose a Korean language model adaptation based on maximum a priori (MAP) estimation. The word-piece model (WPM) based on the statistical characteristic is proposed to use as basic units for language model. And we have compared our ...

      In this paper, we propose a Korean language model adaptation based on maximum a priori (MAP) estimation. The word-piece model (WPM) based on the statistical characteristic is proposed to use as basic units for language model. And we have compared our proposed MAP adaption algorithm with dynamic marginal adaptation algorithm for our language model adaption as well as language model without adaptation. For this purpose, we have built a baseline language model using 90 million sentences, which yields the perplexity (ppl) of 393.6 when experimental 10 million sentences are used as test sentences in the same domain. In the domain of short message service (SMS), we get the ppl of 673.1 when the language adaptation is not applied. However we can get the ppl of 282.8 after MAP adaption algorithm, the ppl of 338.2 after dynamic marginal adaption algorithm, respectively. And in the domain of video lecture, we get the same trend of performance, in which the ppl of 1340 before language adaptation reduces to the ppl of 219.7 after MAP language adaptation. In conclusion, MAP language adaptation algorithm yields ppl reduction of 28.2 % in the domain of SMS, 44.2 % in the domain of video lecture, respectively.

      더보기

      목차 (Table of Contents)

      • 요약
      • Abstract
      • 1. 서론
      • 2. 언어모델을 위한 기본 단위 연구
      • 3. 언어모델 적응 알고리즘
      • 요약
      • Abstract
      • 1. 서론
      • 2. 언어모델을 위한 기본 단위 연구
      • 3. 언어모델 적응 알고리즘
      • 3.1 모델 보간법( Model Interpolation)을 이용한 적응
      • 3.2 동적 주변(Dynamic Marginal) 적응
      • 3.3 MAP 적응
      • 4. 언어모델 적응 프레임워크
      • 5. 실험 및 결과 분석
      • 5.1. 베이스라인 시스템을 위한 코퍼스
      • 5.2 적응 코퍼스
      • 5.3 실험 결과
      • 6. 결론
      • 참고문헌
      더보기

      참고문헌 (Reference)

      1 Ronald Rosenfeld, "Two Decades of Statistical Language Modeling: Where do We Go From Here?" (8) : 1270-1278,

      2 J. R. Bellegarda, "Statistical Language model adaptation: review and perspectives" 42 (42): 93-108, 2004

      3 daniel Jurafsky, "Speech and Language Processing" Pearson International Edition 2009

      4 S. Besling, "Language model speaker Adaptation" 1755-1758, 1995

      5 S. Besling, "Language Model Speaker Adaptation" 1755-1758, 1995

      6 M. Federico, "Language Model Adaptation" Springer-Verlang 1999

      7 Mike Schuster, "Japanese and Korean Voice Search" 5149-5152, 2012

      8 R. Kneser, "Improved Backing-Off For M-gram Language Modeling" 181-185, 1995

      9 "CMU statistical language modeling toolkit"

      10 "CMU statistical language modeling tool kit( MAP)"

      1 Ronald Rosenfeld, "Two Decades of Statistical Language Modeling: Where do We Go From Here?" (8) : 1270-1278,

      2 J. R. Bellegarda, "Statistical Language model adaptation: review and perspectives" 42 (42): 93-108, 2004

      3 daniel Jurafsky, "Speech and Language Processing" Pearson International Edition 2009

      4 S. Besling, "Language model speaker Adaptation" 1755-1758, 1995

      5 S. Besling, "Language Model Speaker Adaptation" 1755-1758, 1995

      6 M. Federico, "Language Model Adaptation" Springer-Verlang 1999

      7 Mike Schuster, "Japanese and Korean Voice Search" 5149-5152, 2012

      8 R. Kneser, "Improved Backing-Off For M-gram Language Modeling" 181-185, 1995

      9 "CMU statistical language modeling toolkit"

      10 "CMU statistical language modeling tool kit( MAP)"

      11 Stanley F. Chen, "An empirical study of smoothing techniques for language modeling" 359-394, 1999

      12 J. R. Bellegarda, "An Overview of Statistical Language Model Adaptation"

      13 L. Chen, "An Improved MAP Method for Language Model Adaptation" 1923-1926, 1999

      14 J. T. Goodman, "A Bit of Progress in Language Modeling. Technical Report" Microsoft Research 2001

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2011-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2010-01-01 평가 등재후보 1차 PASS (등재후보1차) KCI등재후보
      2008-01-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.68 0.68 0.62
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.56 0.51 0.557 0.26
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼