http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
구문 분석을 위한 말뭉치로부터의 어휘 정보 획득 및 응용
윤준태 연세대학교 언어정보개발연구원 1999 언어 정보의 탐구 Vol.1 No.-
말뭉치는 언어에 관한 풍부한 자료를 제공한다. 특히 구문 분석에 있어서 어휘 정보는 구조적 중의성을 해결하는 데 중요한 역할을 하는데 말뭉치는 그러한 어휘 정보를 추출하기 위한 정보원이다. 본 논문에서는 대량의 말뭉치로부터 어휘간의 공기 관계를 추출하고 이들이 구문 분석에서 어떻게 효과적으로 이용될 수 있는지를 보인다. 첫째, 공기 정보로부터 보다 의미 있는 연어를 추출하고 이를 구문 분석에 이용함으로써 보다 효율적인 파서의 구축이 가능함을 보인다. 둘째로는 대량의 말뭉치로부터 추출한 공기정보가 구문 분석시 보조사나 조사 생략에 의한 격 중의성 혹은 관계 관형절에서 발생하는 명사구 이동에 따른 격 중의성의 해결에 적용될 수 있음을 보인다. 이를 위해 본 연구에서는 연세대학교 한국어 사전 편찬실의 연세 말뭉치 3,000만 어절과 KAIST 말뭉치 중 1,000만 어절로부터 <서술어, 명사, 격관계> 공기 정보를 추출하였다
윤준태(Jun-tea Yoon),송만석(Man-seok Song) 한국정보과학회 1992 한국정보과학회 학술발표논문집 Vol.19 No.2
본 논문은 한국어 구문 분석기의 개발을 목표로 한다. 특히 한국어의 구문론적 현상에 중점을 두고 이를 HPSG 이론에 기반을 두고 구현한다. 또 언어학적으로는 설명이 가능하지만 실제 구현하는데 있어서 효율성에 문제가 생기는 경우가 많이 있다. 어휘적 중의성은 그 대표적인 현상이다. 본 논문은 이를 해결하는 Disambiguation Logic과 함께 언어이론으로 설명하는 것보다 효율적이라 생각되는 메카니즘을 결합하여 구문 분석기를 구현하였다.
윤준태(Jun-Tae Yoon),정의석(Eui-Seok Jong),송만석(Mansuk Song) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.11
복합 명사의 분석은 명사구내의 단어간 관계가 어휘의 선택에 의해 만들어진다는 점에서 다루기 어려운 문제로 여겨져 왔다. 본 논문에서는 복합 명사내 명사들의 언어학적 관계와 이를 기반으로 말뭉치에서 추출한 어휘간 공기 관계를 바탕으로 복합 명사의 구문 구조를 분석하는 방법을 제시한다. 여기서 복합 명사란 명사 열로 이루어진 복합 명사와 명사의 관형형에 의한 수식을 포함하는 명사구를 통틀어 자칭한다. 본 논문에서는 통사층에서의 명사간 관계를 술어-보어 관계와 한정 관계로 파악하고 이러한 두 관계를 말뭉치로서부터 추출하여 복합 명사의 구문 분석에 적용하였다. 어휘간 공기 데이타는 연세대학교 한국어 사전 편찬실 말뭉치의 3,000만 어절로부터 품사 태거와 부분 파서에 의해 구해졌으며, 학습 데이타로부터 분리된 말뭉치로부터 선택한 복합 명사에 대해 83.8%의 분석 성공률을 보였다. Compound noun analysis is a difficult problem because the relationship between noun components depends on lexical meaning. This paper presents a method to analyze the structures of nominal compounds based on the linguistic relations between nouns and their lexical co-occurrence relations which are extracted from the corpus. Compound noun includes a sequence of nouns and noun phrase modified by a noun with adnominal postposition. Two nouns in a compound noun are linked by either the predicate-argument or the qualifier-head relation at the syntactic level. The two relations are obtained from the corpus and applied to nominal compound analysis. Lexical co-occurrence data were extracted by the POS tagger and the partial parser from 30 million words of Yonsei Lexicographical Center Corpus. The precision rate of analysis is 83.8% for compound nouns selected from the test corpus separated from the training corpus.
윤준태(Juntae Yoon),송만석(Mansuk Song) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.3
구문 분석에 있어서 대등 접속 구문을 인식하는 일은 매우 중요하다. 본 논문은 두 구문간의 ‘병렬성’을 이용하여, 대등 접속 구문을 포함하는 한국어 문장을 분석하는 알고리즘을 제안한다. 일반적으로 대등 접속 구문은 접속어를 중심으로 대칭적 구조를 가지고 있는데 이는 접속 구문을 인식하는데 매우 유용하다. 특히 본 접근 방법에서는 구문 분석 중간에 생기는 부분 분석의 잇점을 취하여 우리 나라 접속어(conjunction)가 가지는 어휘적 중의성(lexical ambiguity)까지 해결할 수 있도록 하며 , 접속구문에서 흔히 발생하는 구조적인 중의성 문제를 해결한다. 또, 파서가 말뭉치 분석 도구와 같은 실제 시스템에 응용되기 위해서는 모든 가능한 구문 분석 결과 중 하나를 선택해야 하는데, 이를 위해 각 구(phrase)가 결합할 때마다 결합의 유형과 거리에 대한 가중치를 부여한다. 마지막으로 이들 가중치에 따라 최적해를 구한다. It is important to analyze coordinate conjunctive sentences in syntactic analysis. This paper suggests an algorithm for analyzing the Korean sentences with coordinate conjunctive structures using 'parallelism'. In many cases coordinate sentences have symmetric structures which are very useful to identify them. Especially, since this system identify them during parsing, the lexical ambiguities of Korean conjunctions can be resolved, which makes it easy to resolve the structural ambiguities. In order to use this parser in an application system such as a corpus analyzer, the correct one must be selected in multiple parsed results. For this, whenever phrases are unified, the system gives weights to the newly generated node according to the unfication type and the distance of the phrases. Lastly, the best result of all parse trees is determined by given weights.