http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
장두성(Du-seong Chang),최기선(Key-Sun Choi) 한국정보과학회 1992 한국정보과학회 학술발표논문집 Vol.19 No.2
텍스트에서 인덱스로서의 복합 단위(Compound Term)를 생성하기 위해서는 전체문장을 구문분석(Syntactic Parsing)하던지 아니면 직관적으로 일련의 가치있다고 여겨지는 품사열(Template)을 선택하는 것이 일반적 방법이다. 이 논문은 인덱싱에서 복합 단위를 생성하기 위해 전체문장의 분석없이 명사구의 범위(NPbound)만을 빠른 시간내에 확률론적 인식을 하고 또한 인식된 명사구에서 복합단위를 생성하는 방법에 대해 논의한다. 명사구를 인식하기 위해 높은 정확률을 가지는 새로운 범위 결정함수(Score Function)를 정의하였고, 동적 알고리듬의 사용으로 명사구의 인식이 빠른시간내에 효율적으로 가능함을 보인다. 또한 인식된 명사구의 접사분리(Stemming), 특정 품사제거, 접속사(Conjunction)의 분석과 집합화(Grouping)을 통해 인덱스 단위(Index Term)로 쓰일 수 있는 복합단위의 생성에 이용될 수 있음에 대해 논의한다. 마지막으로 실험결과를 통해 명사구의 확률론적 인식을 통해 빠른 시간내에 전체문장의 분석없이도 인덱스 단위로 쓰일 수 있는 복합단위의 생성이 가능함을 보인다.
의존문법을 후향 언어모델로 사용하는 한국어 연속음성 인식시스템
장두성(Du-Seong Chang),구명완(Myoung-Wan Koo) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.4
본 논문에서는 한국어 연속음성 인식에 적용 가능한 새로운 언어모델 방법을 제시한다. 이 언어모델은 기존의 연속음성 인식시스템에서 사용되던 구문론적 언어모델들이 대부분 주어진 인식영역에 한정되어 구성된 구구조문법을 사용하던 것과 달리 바이그램(bigram)을 전향 언어모델로, 의존문법을 후향 언어모델로 사용한다. 이 언어모델은 단어간의 통계적인 연어정보와 의존관계를 같이 고려하므로 생략과 도치가 빈번히 일어나는 한국어에서도 적은 계산시간으로 다음과 같은 효율성을 가진다. 이 언어모델은 인식된 단어의 리스트를 문미에서 문두쪽으로 분석해 나아감으로서 피수식어를 비롯한 중심어구가 수식어들의 뒤에 위치하는 한국어에 있어서 잘못된 인식 결과를 분석 도중에도 제거할 수 있다. 또한 기존의 언어모델과 달리 인식영역에 구애받지 않는 일반적인 문법을 사용할 수 있다. 본 논문에서는 한국어의 비교적 자유스러운 문맥 구성을 충실히 반영한 언어모델을 사용한 한국어 연속음성 인식시스템에 대해 설명하고, 기존의 구구조문법과 LR 파서를 사용한 시스템에 비해 적은 양의 문법규칙으로도 빠른 시간에 인식결과를 선택할 수 있음을 보인다. 또한, 바이그램만을 사용한 시스템에 비해 단어 오인식률은 10.59%, 문장 오인식률은 6.98% 감소시킨 실험 결과를 보인다. 마지막으로 제안된 언어모델을 사용한 한국어 연속음성 인식시스템이 기존의 인식시스템들과는 달리 기계번역 시스템과 의존문법을 이용한 구문분석기를 공유할 수 있으므로, 음성 번역 시스템(speech translation system)을 고려할 때 매우 효율적인 점을 보인다. In This paper, we propose a language modeling method which can improve recognition rate With a few additional computation. The proposed system uses the bigram as a forward language model and the dependency grammar as a backward language model. This system can exclude ungrammatical sentences earlier than the system which uses LR parser and Phrase Structure Grammar(PSG). The proposed method reduces word recognition error by 10.59% and sentence recognition error by 6.98%. This backward language model can be also used for the syntactic analysis of a machine translation system so that the speech translation system can be efficiently integrated.
장두성(Du-Seong Chang),최기선(Key-Sun Choi) 한국정보과학회 언어공학연구회 2004 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.16 No.1
단서구문 및 어휘 쌍 확률 등을 이용하면 일정한 영역의 문서에서 사용된 용어의 원인이 되거나 결과를 나타나는 관련어들을 찾을 수 있다. 본 논문에서는 이러한 각 용어의 선행 원인과 후행 결과를 인과관계 정보라고 정의한다. 인과관계 정보가 유사한 용어들은 서로 유사한 개념에 속한다고 가정한다면, 용어의 직/간접적 인과관계로서 용어 온톨로지에서 그 용어가 속할 집합을 결정하는 데 도움을 줄 수 있다. 본 논문에서는 각 용어의 인과관계가 용어 군집화를 위한 유용한 문맥 정보의 하나라는 것을 실험을 통해 증명하였다. 속성으로 사용된 인과관계는 대용량의 코퍼스로부터 비지도식 학습방법을 통해 자동 습득하였으며, 그 정확도는 74.84%를 보였다. 1659개 용어에 대한 군집화 실험 결과 70.02%의 정확도를 보였으며, 어휘 유사도만을 사용한 경우에 비해 32.9%의 적용도 향상을 보였다.