http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
강신재,Kang, Sin-Jae 한국정보처리학회 2004 정보처리학회논문지B Vol.11 No.4
본 논문은 기존의 다양한 언어자원들을 이용하여 온톨로지를 구축하고, 이를 단어의미 중의성 해소에 활용하는 방법을 제시하고 있다. 온톨로지를 실용적으로 구축하기 위해서는 가도카와 시소러스의 개념 체계에 격 관계와 기타 의미관계와 같은 다른 의미관계를 추가하여 확장하는 방법을 선택하였다. 구축된 온톨로지를 단어 의미 중의성 해소에 활용하기 위해서는, 결합가 정보를 포함하고 있는 전자사전을 먼저 이용하여 단어의 의미를 결정하고, 결정하지 못한 단어의 의미는 온톨로지를 이용하여 결정하는 절차를 거친다. 이를 위해 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 계산되는데, 이를 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로 개념간 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다. This paper presents an ontology construction method using various computational language resources, and an ontology-based word sense disambiguation method. In order to acquire a reasonably practical ontology the Kadokawa thesaurus is extended by inserting additional semantic relations into its hierarchy, which are classified as case relations and other semantic relations. To apply the ontology to disambiguate word senses, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.
대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축
강신재,박정혜,Kang, Sin-Jae,Park, Jung-Hye 한국정보처리학회 2003 정보처리학회논문지B Vol.10 No.2
This paper presents an efficient construction method of determination rules of thematic roles from syntactic relations in Korean language processing. This process is one of the main core of semantic analysis and an important issue to be solved in natural language processing. It is problematic to describe rules for determining thematic roles by only using general linguistic knowledge and experience, since the final result may be different according to the subjective views of researchers, and it is impossible to construct rules to cover all cases. However, our method is objective and efficient by considering large corpora, which contain practical osages of Korean language, and case frames in the Sejong Electronic Lexicon of Korean, which is being developed by dozens of Korean linguistic researchers. To determine thematic roles more correctly, our system uses syntactic relations, semantic classes, morpheme information, position of double subject. Especially by using semantic classes, we can increase the applicability of the rules. 본 논문은 한국어정보처리 과정에서 구문 관계를 의미역으로 사상시키기 위한 규칙을 효과적으로 구축하는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제 중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어 학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 규칙의 적용률이 향상되는 효과를 가져올 수 있었다.
링크확률과 개체명 인식을 이용한 영-한 교차언어 링크 탐색
강신재(Shin-Jae Kang) 한국지능시스템학회 2013 한국지능시스템학회논문지 Vol.23 No.3
본 논문에서는 방대한 웹 자원의 연결성을 더욱 증가시키기 위해 영어 위키피디아 문서로부터 한국어 위키피디아 문서로의 교차언어 링크를 자동으로 탐색하는 방법을 제안한다. 어구의 링크확률을 대략 추정하여 사용하던 기존의 방법에 비해, 본 연구에서는 위키피디아 문서 집합으로부터 추출한 제목 목록과 링크 확률과 같은 다양한 정보들과 개체명 인식 결과를 함께 사용하여 링크가 걸릴 앵커 후보를 선택한다. 앵커 후보를 한국어 대역어로 번역한 후, 대역어에 가장 적합한 한국어 웹문서를 찾아 교차언어 링크로 설정하게 된다. 실험한 결과 MAP 수치로 0.375를 얻었다. This paper proposes an automatic method for discovering cross-lingual links from English Wikipedia documents to Korean ones in order to increase connectivity among vast web resources. Compared to the existing methods roughly estimating link probability of phrases, candidate anchors are selected from English documents by using various information such as title lists and linking probability extracted from Wikipedia dumps and the results of named-entity recognition, and the anchors are translated into Korean words, and then the most suitable Korean documents with the words are selected as cross-lingual links. The experimental results showed 0.375 of MAP.