http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
윤준태(Juntae Yoon),송만석(Mansuk Song) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.3
구문 분석에 있어서 대등 접속 구문을 인식하는 일은 매우 중요하다. 본 논문은 두 구문간의 ‘병렬성’을 이용하여, 대등 접속 구문을 포함하는 한국어 문장을 분석하는 알고리즘을 제안한다. 일반적으로 대등 접속 구문은 접속어를 중심으로 대칭적 구조를 가지고 있는데 이는 접속 구문을 인식하는데 매우 유용하다. 특히 본 접근 방법에서는 구문 분석 중간에 생기는 부분 분석의 잇점을 취하여 우리 나라 접속어(conjunction)가 가지는 어휘적 중의성(lexical ambiguity)까지 해결할 수 있도록 하며 , 접속구문에서 흔히 발생하는 구조적인 중의성 문제를 해결한다. 또, 파서가 말뭉치 분석 도구와 같은 실제 시스템에 응용되기 위해서는 모든 가능한 구문 분석 결과 중 하나를 선택해야 하는데, 이를 위해 각 구(phrase)가 결합할 때마다 결합의 유형과 거리에 대한 가중치를 부여한다. 마지막으로 이들 가중치에 따라 최적해를 구한다. It is important to analyze coordinate conjunctive sentences in syntactic analysis. This paper suggests an algorithm for analyzing the Korean sentences with coordinate conjunctive structures using 'parallelism'. In many cases coordinate sentences have symmetric structures which are very useful to identify them. Especially, since this system identify them during parsing, the lexical ambiguities of Korean conjunctions can be resolved, which makes it easy to resolve the structural ambiguities. In order to use this parser in an application system such as a corpus analyzer, the correct one must be selected in multiple parsed results. For this, whenever phrases are unified, the system gives weights to the newly generated node according to the unfication type and the distance of the phrases. Lastly, the best result of all parse trees is determined by given weights.
의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소
김선호(Seonho Kim),윤준태(Juntae Yoon),서정연(Jungyun Seo) 한국정보과학회 2014 정보과학회논문지 Vol.41 No.9
생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다. Many important terminologies in biomedical text are expressed as abbreviations or acronyms. We newly suggest a semantic link topic model based on the concepts of topic and dependency link to disambiguate biomedical abbreviations and cluster long form variants of abbreviations which refer to the same senses. This model is a generative model inspired by the latent Dirichlet allocation (LDA) topic model, in which each document is viewed as a mixture of topics, with each topic characterized by a distribution over words. Thus, words of a document are generated from a hidden topic structure of a document and the topic structure is inferred from observable word sequences of document collections. In this study, we allow two distinct word generation to incorporate semantic dependencies between words, particularly between expansions (long forms) of abbreviations and their sentential co-occurring words. Besides topic information, the semantic dependency between words is defined as a link and a new random parameter for the link presence is assigned to each word. As a result, the most probable expansions with respect to abbreviations of a given abstract are decided by word-topic distribution, document-topic distribution, and word-link distribution estimated from document collection though the semantic dependency link topic model. The abstracts retrieved from the MEDLINE Entrez interface by the query relating 22 abbreviations and their 186 expansions were used as a data set. The link topic model correctly predicted expansions of abbreviations with the accuracy of 98.30%.
박혜준(Hyejun Park),윤준태(Juntae Yoon),송만석(Mansuk Song) 한국정보과학회 1994 한국정보과학회 학술발표논문집 Vol.21 No.1
대량으로 수집된 말뭉치에 품사 정보를 추가한다면 언어 현상을 연구하는데 유용하게 사용될 것이다[3]. 자동으로 품사꼬리(tag)를 달아 주기 위해서는 형태소 분석 단계를 거쳐야 하는데 이 단계에서 많은 중의성이 발생한다. 그러나 한국어의 중의성 해결을 위한 연구들은 아직 미흡한 편이며 방법 역시 확률 정보를 이용한 방법으로 제한되어 있다. 본 연구는 확률정보와 묶인말을 이용하여 품사적 중의성을 해결한다. 또한 묶인말에 대한 정보를 제공하며 대형 말뭉치를 대상으로 하는 실용적인 시스템이다.
한국어 문서 처리를 위한 동적 생성 로컬 사전 기반 미등록어 분석
김선호(Seonho Kim),윤준태(Juntae Yoon),송만석(Mansuk Song) 한국정보과학회 2002 정보과학회논문지 : 소프트웨어 및 응용 Vol.29 No.5·6
본 논문은 문서상에서 발견되는 미등록어를 분석하기 위한 새로운 방법론을 제안한다. 미등록어는 대개 고유명사, 외래어, 전문용어 등으로 정보추출이나 정보검색 시 중요한 색인어가 될 수 있다. 또한 미등록어는 일반적으로 특정 문서를 대표하는 중요한 단어로 해당 문서에서 반복적으로 등장하는 특징이 있다. 이러한 특성을 이용하여 주어진 문서를 선행 처리하면 미등록어를 등록어처럼 취급할 수 있다. 본 연구에서는 suffix array 구조를 이용해 문서로부터 어절들의 최장 공통 문자열을 추출하여 로컬 사전을 생성한다. 각 문서에 대해 로컬 사전은 동적으로 생성되며, 시스템의 형태소 어휘 사전을 보조하여 미등록어 분석에 도움을 준다. 실험을 통하여 로컬 사전을 이용한 형태소 분석과 이용하지 않은 경우를 비교한 결과, 미등록어 발생시 추정에 의한 과분석을 방지할 수 있을 뿐 아니라 보다 정확한 분석이 가능함을 볼 수 있었다. In this paper, we present a new method for guessing unknown words in text. In Korean document processing, unknown words are often useful keywords in that they are proper nouns, transliterated foreign words and frequently used compound nouns such as terminology. Thus, unknown words are generally repeatedly appeared in a specific document. Using this property, we can process the unknown words as known words. In order to guess unknown words using their repetitiveness, we first build a suffix array of eojeols in a document and extract the longest common strings of the eojeols. Then, a local dictionary for the document is dynamically made up with the extracted strings. The local dictionary, which is built by preprocessing of morphological analysis, supplements the system morpheme dictionary used in morphological analysis. For experiments, we compare two results of unknown word analysis produced with and without the local dictionary. As a result, it was shown that our approach makes an accurate guess of unknown words as well as alleviating overgeneration of morphological analysis for unknown words.