본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
국문 초록 (Abstract)
본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언...
본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언어모델 적응 방법 으로 MAP 적응 알고리즘을 제안하였고 언어모델을 적응하지 않을 경우 및 전통적인 동적 주변 적응 방식과 비교하 였다. 성능 실험을 위해서 먼저 9천만 문장을 사용하여 베이스라인 언어 모델을 구했고 동일한 도메인에서 1천만 문장으로 시험한 결과 복잡도가 393.6 ppl(perplexity)을 구할 수 있었다. 베이스라인 언어 모델을 사용하여 SMS 분야로 시험한 결과가 적응 전 673.1 ppl에서 동적 주변적응을 하였을 경우에는 338.2 ppl, MAP 적응 알 고리즘을 사용한 경우에는 282.8 ppl이 되었다. 또한 동영상 강의 문장을 사용할 경우에도 적응 전에는 1340 ppl 을 보였으나 MAP 알고리즘에 의한 언어 적응 후에는 219.7ppl로 나왔다. 결론적으로 한국어에서 WPM을 기본 단위로 사용하고 MAP 언어모델 적응을 한 경우에는 베이스라인 언어모델의 복잡도보다 SMS, 동영상 각각의 도메 인에서 28.2%, 44.2% 감소되었다.
다국어 초록 (Multilingual Abstract)
In this paper, we propose a Korean language model adaptation based on maximum a priori (MAP) estimation. The word-piece model (WPM) based on the statistical characteristic is proposed to use as basic units for language model. And we have compared our ...
In this paper, we propose a Korean language model adaptation based on maximum a priori (MAP) estimation. The word-piece model (WPM) based on the statistical characteristic is proposed to use as basic units for language model. And we have compared our proposed MAP adaption algorithm with dynamic marginal adaptation algorithm for our language model adaption as well as language model without adaptation. For this purpose, we have built a baseline language model using 90 million sentences, which yields the perplexity (ppl) of 393.6 when experimental 10 million sentences are used as test sentences in the same domain. In the domain of short message service (SMS), we get the ppl of 673.1 when the language adaptation is not applied. However we can get the ppl of 282.8 after MAP adaption algorithm, the ppl of 338.2 after dynamic marginal adaption algorithm, respectively. And in the domain of video lecture, we get the same trend of performance, in which the ppl of 1340 before language adaptation reduces to the ppl of 219.7 after MAP language adaptation. In conclusion, MAP language adaptation algorithm yields ppl reduction of 28.2 % in the domain of SMS, 44.2 % in the domain of video lecture, respectively.
목차 (Table of Contents)
참고문헌 (Reference)
1 Ronald Rosenfeld, "Two Decades of Statistical Language Modeling: Where do We Go From Here?" (8) : 1270-1278,
2 J. R. Bellegarda, "Statistical Language model adaptation: review and perspectives" 42 (42): 93-108, 2004
3 daniel Jurafsky, "Speech and Language Processing" Pearson International Edition 2009
4 S. Besling, "Language model speaker Adaptation" 1755-1758, 1995
5 S. Besling, "Language Model Speaker Adaptation" 1755-1758, 1995
6 M. Federico, "Language Model Adaptation" Springer-Verlang 1999
7 Mike Schuster, "Japanese and Korean Voice Search" 5149-5152, 2012
8 R. Kneser, "Improved Backing-Off For M-gram Language Modeling" 181-185, 1995
9 "CMU statistical language modeling toolkit"
10 "CMU statistical language modeling tool kit( MAP)"
1 Ronald Rosenfeld, "Two Decades of Statistical Language Modeling: Where do We Go From Here?" (8) : 1270-1278,
2 J. R. Bellegarda, "Statistical Language model adaptation: review and perspectives" 42 (42): 93-108, 2004
3 daniel Jurafsky, "Speech and Language Processing" Pearson International Edition 2009
4 S. Besling, "Language model speaker Adaptation" 1755-1758, 1995
5 S. Besling, "Language Model Speaker Adaptation" 1755-1758, 1995
6 M. Federico, "Language Model Adaptation" Springer-Verlang 1999
7 Mike Schuster, "Japanese and Korean Voice Search" 5149-5152, 2012
8 R. Kneser, "Improved Backing-Off For M-gram Language Modeling" 181-185, 1995
9 "CMU statistical language modeling toolkit"
10 "CMU statistical language modeling tool kit( MAP)"
11 Stanley F. Chen, "An empirical study of smoothing techniques for language modeling" 359-394, 1999
12 J. R. Bellegarda, "An Overview of Statistical Language Model Adaptation"
13 L. Chen, "An Improved MAP Method for Language Model Adaptation" 1923-1926, 1999
14 J. T. Goodman, "A Bit of Progress in Language Modeling. Technical Report" Microsoft Research 2001
클라우드 서비스 브로커의 중개를 지원하기 위한 자원 모델 및 계약 관리 메커니즘
Flash Memory Pattern Test를 위한 효율적인 알고리즘 연구
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2027 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2021-01-01 | 평가 | 등재학술지 유지 (재인증) | ![]() |
2018-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2015-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2011-01-01 | 평가 | 등재학술지 선정 (등재후보2차) | ![]() |
2010-01-01 | 평가 | 등재후보 1차 PASS (등재후보1차) | ![]() |
2008-01-01 | 평가 | 등재후보학술지 선정 (신규평가) | ![]() |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.68 | 0.68 | 0.62 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.56 | 0.51 | 0.557 | 0.26 |