http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
EM 알고리즘을 이용한 전문용어 온톨로지 클래스간 관계 정의를 위한 동사 클러스터링
김미훈(Meixun Jin),남상협(Sang-Hyob Nam),이용훈(Yong-Hoon Lee),이종혁(Jong-Hyeok Lee) 한국정보과학회 언어공학연구회 2007 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2007 No.10
온톨로지 구축에서 클래스간 관계 설정은 중요한 부분이다. 본 논문에서는 클래스간 상 하위 관계 외의 관계 설정을 위한 클래스간 관계 자동 정의를 목적으로 의존구문분석의 (주어, 용언) (목적어, 용언) 쌍들을 추출하고, 이렇게 추출된 데이터를 이용하여 용언들을 클러스터링 하는 방법을 제안한다. 도메인 전문 코퍼스 데이터 희귀성 문제를 해결하고자, 웹검색을 결합한 방식을 선택하여 도메인 온톨로지 구축 클래스간 관계 자동 설정에 대한 방법론을 제시한다.
김미훈(Meixun Jin),김미영(Mi-Young Kim),김동일(Dongil Kim),이종혁(Jong-Hyeok Lee) 한국정보과학회 2003 한국정보과학회 학술발표논문집 Vol.30 No.1B
일반적인 언어에서 대등접속문은 접속사와 함께 나타나지만, 중국어 대등접속문은 접속사 없이도 이루어질 수 있다. 이러한 경우 조사정보가 대등접속문을 판단하는데 중요한 정보가 된다. 본 논문에서는 중국어 조사(助詞)정보를 고려하여 접속사가 없는 중국어 대등접속문을 인식하는 방법을 제안한다.
김미훈(Meixun Jin),김미영(Mi-Young Kim),이종혁(Jong-Hyeok Lee) 한국정보과학회 2006 정보과학회논문지 : 소프트웨어 및 응용 Vol.33 No.5
입력문장이 길어질수록 구문분석의 정확률은 크게 낮아진다. 따라서 긴 문장의 구문분석 정확률을 높이기 위해 장문분할 방법들이 많이 연구되었다. 중국어는 고립어로서 자연언어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없는 대신 쉼표를 비교적 많이, 또 정확히 사용하고 있어서 이러한 쉼표사용이 장문분할에 도움을 줄 수 있다. 본 논문에서는 중국어 문장에서 쉼표 주변의 문맥을 파악하여 해당 쉼표위치에 문장분할이 가능한지 Support Vector Machine을 이용해 판단하고자 한다. 쉼표의 분류의 정확률이 87.1%에 이르고, 이 분할모델을 적용한 후 구문분석한 결과, 의존트리의 정확률이 5.6% 증가했다. The longer the input sentences, the worse the parsing results. To improve the parsing performance, many methods about long sentence segmentation have been reserarched. As an isolating language, Chinese sentence has fewer cues for sentence segmentation. However, the average frequency of comma usage in Chinese is higher than that of other languages. The syntactic information that the comma conveys can play an important role in long sentence segmentation of Chinese languages. This paper proposes a method for classifying commas in Chinese sentences according to the context where the comma occurs. Then, sentences are segmented using the classification result. The experimental results show that the accuracy of the comma classification reaches 87.1%, and with our segmentation model, the dependency parsing accuracy of our parser is improved by 5.6%.