http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
송만석(Man-Suk Song),윤준태(Jun-Tae Yoon),김선호(Sun-Ho Kim) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.11
본 논문에서는 대량의 말뭉치로부터 추출한 어휘들의 공기 관계를 바탕으로 문장내의 어절간 연관도가 전연적으로 관리될 수 있는 전역적 연관 테이블(Global Association Table; GAT)을 정의한다. 그리고 이를 이용한 새로운 파싱 방법을 제안한다. 파서는 GAT를 이용해 하나의 어절에 대해 뒤따르는 어느 어절과 연관도가 가장 높은지를 전연적으로 예측할 수 있고 연관도에 따라 파싱의 행동을 결정한다. 즉, 본 연구에서 제안하는 파싱 알고리즘은 GAT내의 어절간 연관도에 의해 반결정적으로 (semi-deterministically) 이루어지며, 예측이 실패했을 경우에 차트로부터 차선의 후보를 선택한다. 이를 위해 연세대학교 한국어 사전 편찬실의 3000만 어절 말뭉치로부터 부분 파서를 이용해 명사구와 동사의 공기 관계를 구하고 이를 기반으로 어절과 어절의 상호 연관도를 구하였다. This paper presents a new parsing method using statistical information extracted from a corpus. We define the global association table(GAT) that makes the parser manage the lexical association globally. With the GAT where the associations between two words are computed, the parser determines which word is the most closely associated head for a given complement word in a sentence. Sentences are analyzed semi-deterministically by the associations in GAT. Whenever the expectation of the parser for the head fails, it chooses the alternatives using a chart to remove the backtracking. Co-occurrence data between verbs and nouns were extracted by the partial parser from 30 million eojeol corpus of Yonsei Lexicographical Center and used to compute the associations among eojeols.
조기용(Ki Yong Cho),송만석(Man Suk Song) 한국정보과학회 1992 한국정보과학회 학술발표논문집 Vol.19 No.1
연세대학교 한국어 사전 편찬실에서 만든 300만 마디의 말뭉치를 분석하면서 모든 서술어에 대해 그것이 어떠한 문장성분을 요구하는지를 찾을 수 있는 도구를 구현하였다. 이 도구를 이용하여 자연언어 처리에서 구문분석을 위해 필요한 구문정보 중 서술어가 요구하는 문장성분이 무엇이며 어떠한 형태로 나타나는가에 대한 정보를 얻고자 한다.
한국어처리 : 접속 특성과 말마디 사전을 이용한 형태소 분석
임권묵(Lim Kwon Mook),송만석(Song Man Suk) 한국정보처리학회 1994 정보처리학회논문지 Vol.1 No.1
This paper presents a morphological analysis method for the Korean language. The characteristics and adjacency information of the words can be obtained from sentences in a large corpus. Generally a word can be analyzed to a result by applying the adjacency attributes and rules. However, we have to choose one from the several results for the ambiguous words. The collected morpheme's adjacency attributes and relations with neighbor words are recorded in a well designed dictionaries. With this information, abbreviated words as well as ambiguous words can be almost analyzed successfully. Efficiency of morphological analyzer depends on the information in the dictionaries. A morpheme dictionary and a phrase dictionary have been designed with lexical database, and necessary information extracted from the corpus is stored in the dictionaries.
박경미(Kyung-Mi Park),송만석(Man-Suk Song) 한국정보과학회 2002 한국정보과학회 학술발표논문집 Vol.29 No.1B
연어는 습관적으로 같이 자주 나타나는 단어열로 각 단어로 분리하기보다 통합해 처리하는 것이 효율적이기 때문에 기계 번역과 음성 인식등에서 유용한 정보로 사용된다. 이러한 연어를 추출하기 위해 본 논문에서는 2가지 경우를 고려했는데, 첫 번째로 연어를 말뭉치에 자주 나타나는 단어열이라고 했을 때 단어열들의 엔트로피가 일정값 이상이면 연어로 추출했다. 두 번째로 통사적 제약이 있는 언어를 추출하기 위해 앞 또는 뒤에 올 단어를 제약하는 단어의 엔트로피를 구해 일정값 미만이면 그 단어를 포함한 단어열을 연어로 추출했다. 실험은 품사 부착된 HANTEC 말뭉치를 가지고 수행했고, 첫 번째 방법으로 실험했을 때 엔트로피가 2이상인 단어열을 가지고 분리된 연어도 유도해냈다.
사전에서 추출한 의미 속성에 기반한 명사 의미 클러스터링
박영자(Young-Ja Park),송만석(Man-Suk Song) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.3
국어 사전의 의미 기술 문장에서 각 명사 의미에 대한 속성을 자동으로 추출하여 의미를 클러스터링 하는 새로운 방법을 제안한다. 사전의 의미 기술 문장들로부터 의미들간의 연관 관계를 나타내는 의미 참조 네트워크를 구축한다. 의미 참조 네트워크로부터 의미 속성을 추출하고, 속성값은 단어 의미들간의 유사도를 기반으로 정의된 퍼지 릴레이션을 이용하여 계산된다. 속성 정보를 의미 기술 문장들로부터 추출함으로써 말뭉치 기반의 자연어 처리 시스템이 가지는 자료 희귀성 문제를 극복할 수 있다. 각 명사 의미는 속성-속성값 쌍의 순서 집합으로 정의되고 속성 공간에서 한 벡터 형태로 표현된다. 최적의 클러스터링 결과를 찾기 위해서 명사 의미들의 모든 가능한 부류 집합을 조사하고, 그 결과가 얼마나 좋은 클러스터링인지를 평가하여야 한다. 클러스터링 평가함수를 정의하고, 가능한 모든 부류 집합들 중에서 이 함수 값을 최대화시키는 부류 집합을 찾는다. N 개의 자료를 C 개의 부류로 분할하는 문제는 NP-complete이므로, 이 연구에서는 유전자 알고리즘을 이용하여 최적의 클러스터링 결과를 산출한다. We propose a new method of exploiting a machine readable dictionary for extracting semantic features of noun senses and clustering them. A sense reference network which represents associative relationship between word senses is automatically constructed from dictionary definitions. Features of a sense are extracted from the network and feature values are calculated by using a fuzzy relation which is defined on the basis of similarities between word senses. This method can overcome the problem of data sparseness, which is an inherent problem in corpus-based approaches, by using dictionary definitions. A noun sense is defined as an ordered set of feature-value pairs and represented as a vector form in a feature space. In order to find an optimal result, it is necessary to evaluate all the possible partitions of the senses, and select the one which fits a criterion function best. Given a clustering criterion, we find a set of clusters which maximizes the function. Since the problem of partitioning N data into C classes is an NP-complete, we use a genetic algorithm to find an optimal clustering result.
한국어 전자사전 원형의 설계 및 구현 - 하이퍼텍스트 기법 사용
양단희(Dan Hee Yang),최윤철(Yoon Chul Choy),송만석(Man Suk Song) 한국정보과학회 1990 한국정보과학회 학술발표논문집 Vol.17 No.2
언어 정보 처리가 정보과학의 가장 중요한 분야의 하나로 부상하면서 언어 정보 가치가 높은 실용성있는 우리말 사전의 필요성이 더욱 더 절실해지고 있으며, 또 우리 언어 사회에 외래어가 지나치게 범림함으로써 고유 언어 문화를 침해할 정도가 되어 외래 신생어에 대한 대책이 긴요하다 하겠다. 그러므로 본 논문은 최신 전산 기술을 이용하여 우리말 어휘 뭉치를 대량 정보 처리함으로써, 우리말 언어 세계를 신속하고 정확하게 반영하며, 실용성 있고 사용하기 편리하며, 우리말 어휘 확장에 보조 역할을 해줄 하이퍼텍스트화된 우리말 전자사전을 제안하며 그 원형을 설계 및 구현하였다.
김충원(Choong-Won Kim),임권묵(Kwon-Mook Lim),송만석(Man-Suk Song) 한국정보과학회 1994 한국정보과학회 학술발표논문집 Vol.21 No.2A
본 논문은 대형 말뭉치(Corpus)에서 추출된 형태소들의 의미 정보를 이용해서 중의성을 갖는 말마디의 형태소 분석을 실행한다. 중의성을 갖지 않는 말마디는 형태소간의 접속 규칙을 적용함으로써 쉽게 분류될 수 있으나, 중의성을 갖는 말마디는 문장내에 있는 각 말마디들의 통사적인 정보와 의미 정보를 문맥 정보와 함께 참조해야만 분석이 가능해 진다. 따라서 본 연구는 대형 말뭉치로부터 중의성을 갖는 말마디를 추출하고, 추출된 각 말마디의 용례를 분석하여 중의성 해결에 필요한 의미 정보를 산출한다. 또한 산출된 정보를 효과적으로 수록하기 위한 사전을 설계하고, 이 사전을 참조함으로써 중의성 말마디의 형태소 분석을 수행할 수 있는 형태소 분석기를 구현한다.