http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
품사태깅을 위한 어휘문맥 의존규칙의 말뭉치기반 중의성주도 학습
이상주(Sang-Zoo Lee),류원호(Won-Ho Ryu),김진동(Jin-Dong Kim),임해창(Hae-Chang Rim) 한국정보과학회 1999 정보과학회논문지(B) Vol.26 No.1
통계적 품사태거는 품사문맥확률과 어휘확률만을 사용하기 때문에 어휘문맥을 고려해야만 해결할 수 있는 형태론적 중의성을 해결할 수 없다. 기존의 어휘규칙기반 품사태거는 통계적 품사태거에 의해 해결되지 않는 형태론적 중의성을 어휘문맥을 참조하는 어휘규칙을 사용함으로써 효과적으로 해결할 수 있다. 그러나 기존 어휘규칙은 결정적 규칙이므로 규칙 작성 시에 오류를 야기할 가능성이 높으며 수작업으로 획득해야 하기 때문에 규칙획득에 많은 시간이 소요되는 문제점이 있다. 본 논문에서는 품사부탁 말뭉치의 통계에 기반한 어휘규칙인 어휘문맥 의족규칙을 제안하고 어휘문맥 의존규칙을 자동으로 획득하는 방법으로서 중의성주도 학습 방법을 제안한다. 어휘문맥 의족규칙을 이용하는 제안된 태거는 학습말뭉치를 100% 정확률로 태깅하는 기억태거로서 실험말뭉치의 일부를 높은 정확률로 태깅한다. 따라서 통계적 품사태거의 정확률 향상에 사용될 수 있으며 수동태깅된 말뭉치의 태깅오류를 감지하고 교정하는 데에도 효과적이다. 또한 제안된 방법은 영어 품사태깅에 대해서도 효과적임이 실험을 통해 증명되었다. Most stochastic taggers can not resolve some morphological ambiguities that can be resolved only by referring to lexical contexts because they use only contextual probabilities based on tag n-grams and lexical probabilities. Existing lexical rules are effective for resolving such ambiguities because they can refer to lexical contexts. However, they have two limitations. One is that human experts tend to make erroneous rules because they are deterministic rules. Another is that it is hard and time-consuming to acquire rules because they should be manually acquired. In this paper, we propose context-dependent lexical rules, which are lexical rules based on the statistics of a tagged corpus, and an ambiguity-driven learning method, which is the method of automatically acquiring the proposed rules from a tagged corpus. By using the proposed rules, the proposed tagger can partially annotate an unseen corpus with high accuracy because it is a kind of memorizing tagger that can annotate a training corpus with 100% accuracy. So, the proposed tagger is useful to improve the accuracy of a stochastic tagger. And also, it is effectively used for detecting and correcting tagging errors in a manually tagged corpus. Moreover, the experimental results show that the proposed method is also effective for English part-of-speech tagging.
명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법
이도길(Do-Gil Lee),이상주(Sang-Zoo Lee),임해창(Hae-Chang Rim) 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.1·2
형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 없는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고, 명사 접미 음절열은 바로 앞에 있는 명사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복원 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 본 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다. Morphological analysis is the most widely used method for extracting nouns from Korean texts. For every Eojeol, in order to extract nouns from it, a morphological analyzer performs frequent dictionary lookup and applies many morphonological rules, therefore it requires many operations. Moreover, a morphological analyzer generates all the possible morphological interpretations (sequences of morphemes) of a given Eojeol, which may be unnecessary from the noun extraction´s point of view. To reduce unnecessary computation of morphological analysis from the noun extraction´s point of view, this paper proposes a method for Korean noun extraction considering noun occurrence characteristics. Noun patterns denote conditions on which nouns are included in an Eojeol or not, which are positive cues or negative cues, respectively. When using the exclusive information as the negative cues, it is possible to reduce the search space of morphological analysis by ignoring Eojeols not including nouns. Post-noun syllable sequences(PNSS) as the positive cues can simply extract nouns by checking the part of the Eojeol preceding the PNSS and can guess unknown nouns. In addition, morphonological information is used instead of many morphonological rules in order to recover the lexical form from its altered surface form. Experimental results show that the proposed method can speed up without losing accuracy compared with other systems based on morphological analysis.
한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델
이도길(Do-Gil Lee),이상주(Sang-Zoo Lee),임희석(Heui-Seok Lim),임해창(Hae-Chang Rim) 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.3·4
자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다. 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적용한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%의 어절 단위 정확률을 얻었다. Automatic word spacing is a process of deciding correct boundaries between words in a sentence including spacing errors. It is very important to increase the readability and to communicate the accurate meaning of text to the reader. The previous statistical approaches for automatic word spacing do not consider the previous spacing state, and thus can not help estimating inaccurate probabilities. In this paper, we propose two statistical word spacing models which can solve the problem of the previous statistical approaches. The proposed models are based on the observation that the automatic word spacing is regarded as a classification problem such as the POS tagging. The models can consider broader context and estimate more accurate probabilities by generalizing hidden Markov models. We have experimented the proposed models under a wide range of experimental conditions in order to compare them with the current state of the art, and also provided detailed error analysis of our models. The experimental results show that the proposed models have a syllable-unit accuracy of 98.33% and Eojeol-unit precision of 93.06% by the evaluation method considering compound nouns.
규칙 기반 한국어 품사 태깅을 위한 어휘 규칙 획득의 수작업 최소화 방안
이정규(Jeong-Kyu Lee),이상주(Sang-Zoo Lee),임희석(Heui-Seok Lim),임해창(Hae-Chang Rim) 한국정보과학회 1997 한국정보과학회 학술발표논문집 Vol.24 No.1B
품사 태깅 방법에서 규칙 기반 접근 방법은 규칙을 이해하기 쉽고 적용된 어절에 대해서는 높은 정확도로 처리하며 코퍼스 독립적인 특성을 갖는다는 장점이 있다. 그러나 한국어는 어순이 자유롭고 형식 형태소와 실질 형태소의 결합으로 다양한 어절 형태가 발생하므로 일반화된 규칙을 결정하기가 매우 어렵다. 따라서 문맥의 표층 형태인 어휘 정보를 규칙으로 사용하면 한국어의 특성을 잘 반영할 수 있고 어느 정도 어휘 규칙베이스가 구축되면 추론 과정을 거쳐 구문 정보, 품사 정보 및 의미 정보도 유도할 수 있다. 그러나 어절 규칙은 규칙 베이스가 커지게 되고 규칙 획득을 위한 수작업이 많이 든다는 단점이 있다. 이에 본 논문은 최소한의 수작업으로 원시 코퍼스로부터 어휘 규칙을 획득하고 품사를 태깅하는 방법론으로, 수동 태깅 방법시 사용되는 문법 전문가의 언어 지식을 규칙화하고 이 규칙을 자동을 대량 코퍼스에 적용할 수 있는 규칙 기반 품사 태깅 방법을 제안한다.