http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Coreference Resolution을 위한 3인칭 대명사의 선행사 결정 규칙
강승식,윤보현,우종우,Kang, Seung-Shik,Yun, Bo-Hyun,Woo, Chong-Woo 한국정보처리학회 2004 정보처리학회논문지B Vol.11 No.2
정보 검색 시스템에서 문서의 내용을 대표하는 용어를 추출하거나 정보 추출 및 텍스트 마이닝에서 특정 정보만을 추출하려면 고유명사에 대한 대용어 문제가 해결되어야 한다. 대용어 해소 문제는 인칭 명사에 대한 대명사의 선행사 결정 문제가 대표적이다. 본 논문에서는 한국어에서 문서의 내용을 보다 정확히 분석하기 위해 3인칭 대명사 “그/그녀/그들/그녀들”의 선행사를 결정하는 방법을 제안한다. 일반적으로 3인칭 대명사의 선행사는 현재 문장 또는 이전 문장의 주어인 경우가 많고, 또한 3인칭 대명사가 2회 이상 반복되는 경우가 자주 발생한다. 이러한 특성을 이용하여 현재 문장과 이전 문장에 출현한 인칭 명사들 중에서 선행사로 사용되는 경우를 조사하여 선행사 결정 규칙을 발견하였다. 이 경험 규칙은 3인칭 대명사의 격에 따라 조금씩 달라지기 때문에 대명사의 격에 따라 주격, 목적격, 소유격으로 구분하여 기술하였다. 제안한 방법의 타당성을 검증하기 위하여 신문 기사의 정치 관련 문서에서 대명사의 격에 따라 100개씩 총 300개의 실험 대상을 선정하였으며, 실험 결과로 3인칭 대명사의 선행사 결정 정확도는 재현율이 79.0%, 정확률이 86.8%로 나타났다. When we extract a representative term from text for information retrieval system or a special information for information retrieval and text milling system, we often need to solve the anaphora resolution problem. The antecedent decision problem of a pronoun is one of the major issues for anaphora resolution. In this paper, we are suggesting a method of deciding an antecedent of the third personal pronouns, such as “he/she/they” to analyze the contents of documents precisely. Generally, the antecedent of the third personal Pronouns seem to be the subject of the current statement or previous statement, and also it occasionally happens more than twice. Based on these characteristics, we have found rules for deciding an antecedent, by investigating a case of being an antecedent from the personal pronouns, which appears in the current statement and the previous statements. Since the heuristic rule differs on the case of the third personal pronouns, we described it as subjective case, objective case, and possessive case based on the case of the pronouns. We collected 300 sentences that include a pronoun from the newspaper articles on political issues. The result of our experiment shows that the recall and precision ratio on deciding the antecedent of the third personal pronouns are 79.0% and 86.8%, respectively.
강승식,한광수,Kang Seung-Shik,Hahn Kwang-Soo 한국정보처리학회 2005 정보처리학회논문지B Vol.12 No.4
휴대용 정보통신 단말기에서 한글 입력 방식은 단말기에 부착되어 있는 제한된 버튼만을 이용한다는 제약이 있다. 이 제약 조건 하에서 한글 모음을 편리하고 빠르게 입력할 수 있도록 8개의 기본 모음 집합으로부터 이중 모음을 조합하는 방식을 제안한다. 이 방식은 최대 2타로 모든 모음들이 조합될 수 있어서 신속한 입력이 가능하고, 이중 모음에 대해 사용자들이 익숙한 방법으로 조합될 수 있도록 2가지 이상의 조합 방식을 지원하여 사용자 편의성을 높였다 또한, 양성-음성 모음 간에 빈번하게 발생하는 입력 오류를 쉽게 수정할 수 있도록 양성 모음과 음성 모음이 추가 키 입력으로 전환되는 오류 수정 기능을 추가하였다. 기존의 모음 입력 방식들과 비교했을 때 제안한 방식이 입력의 신속성과 오류 수정의 용이성 등의 관점에서 매우 효율적임을 확인하였다. There is a limitation of using a small number of input buttons for writing Hangul words on hand-held devices. As a quick and convenient way of implementing Hangul vowels by small number of buttons, we propose a vowel input system in which vowels are fabricated from eight vowels. Our input system supports a fast input speed by making all the diphthong from one or two strokes. It also adopts a multiple input method for diphthong that users can make a diphthong in a user-friendly way of vowel writing formation or pronunciation similarity. Furthermore, we added an error correction functionality for the similar vowels that are caused by vowel harmony rules. When the proposed method is compared to the previous ones, our method outperformed in the input speed and error correction.
SMS 변형된 문자열의 자동 오류 교정 시스템 (pp.386-391)
강승식(Seung-Shik Kang),장두성(Du-Seong Chang) 한국정보과학회 2008 정보과학회논문지 : 소프트웨어 및 응용 Vol.35 No.6
휴대폰과 메신저 등 통신 환경에서 문자 메시지를 전송할 때 표준어가 아닌 왜곡된 어휘들을 사용하고 있으며, 이러한 변형된 어휘들은 음성 인식, 음성 합성, 문서 정보 추출 등 언어처리 및 관련 분야의 응용 시스템에서 많은 문제점을 유발시킨다. 본 논문에서는SMS 문장들의 변형 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하고 시스템을 구현하였다. 시스템의 성능에 가장 큰 영향을 미치는 변형된 문자열 사전을 구축하는 방법으로 (1) 통신 어휘집을 기반으로 수동으로 구축하는 방법, (2) 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, (3) 자동으로 변형된 문자열을 추출할 때 좌우 문맥을 고려하는 방법에 대하여 시스템을 구현하고 실험을 통하여 비교-분석 및 성능 평가 결과를 제시하였다. Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.
강승식(Seung-Shik Kang),김영택(Yung Taek Kim) 한국정보과학회 1992 정보과학회논문지 Vol.19 No.2
불규칙 활용이 일어나는 어절은 어간의 모양만 바뀌는 경우, 어미의 모양만 바뀌는 경우, 어간과 어미의 모양이 모두 바뀌는 경우는 구분되는데, 형태변이가 일어난 어간 혹은 어미의 원형을 복원하기 위하여 용언의 불규칙 활용을 어간과 어미의 변형 여부에 따라 불규칙 활용의 유형을 전산언어학의 관점에서 다시 정의한다. 이렇게 분류된 불규칙 활용의 유형에 따라 불규칙 활용이 일어나는 어절을 형태소 분석할 때 어간부와 어미부를 어떻게 분리할 것인지, 불규칙 용언의 원형을 어떻게 복원할 것인지에 대한 불규칙 활용 어절의 분석 알고리즘을 제시한다. 이 알고리즘에 의하여 국어학에서 분류하는 9가지의 불규칙 활용뿐만 아니라, 자동적 교체가 일어나는 현상과 전산언어학의 관점에서 불규칙 용언으로 간주하는 불규칙 11가지를 포함한 20가지의 불규칙 활용 현상에 대하여 형태소 분석을 성공적으로 수행한다. Korean irregular word phrases are classified into three forms such as stem-irregular form, ending-irregular form, and stem/ending-irregular form. In order to recover the root of stem and ending, we define Korean irregular verbs and classify them from a computational linguistic point of view. For each classified case, this paper proposes an algorithm for dividing the stem part and ending part from a given word phrase, and recovering root form of the stem. Using this algorithm we can analyze 20 irregular cases including 9 cases defined from a Korean lingustic point of view and 11 more cases defined from a computational linguistic point of view.