RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Coreference Resolution을 위한 3인칭 대명사의 선행사 결정 규칙

        강승식,윤보현,우종우,Kang, Seung-Shik,Yun, Bo-Hyun,Woo, Chong-Woo 한국정보처리학회 2004 정보처리학회논문지B Vol.11 No.2

        정보 검색 시스템에서 문서의 내용을 대표하는 용어를 추출하거나 정보 추출 및 텍스트 마이닝에서 특정 정보만을 추출하려면 고유명사에 대한 대용어 문제가 해결되어야 한다. 대용어 해소 문제는 인칭 명사에 대한 대명사의 선행사 결정 문제가 대표적이다. 본 논문에서는 한국어에서 문서의 내용을 보다 정확히 분석하기 위해 3인칭 대명사 “그/그녀/그들/그녀들”의 선행사를 결정하는 방법을 제안한다. 일반적으로 3인칭 대명사의 선행사는 현재 문장 또는 이전 문장의 주어인 경우가 많고, 또한 3인칭 대명사가 2회 이상 반복되는 경우가 자주 발생한다. 이러한 특성을 이용하여 현재 문장과 이전 문장에 출현한 인칭 명사들 중에서 선행사로 사용되는 경우를 조사하여 선행사 결정 규칙을 발견하였다. 이 경험 규칙은 3인칭 대명사의 격에 따라 조금씩 달라지기 때문에 대명사의 격에 따라 주격, 목적격, 소유격으로 구분하여 기술하였다. 제안한 방법의 타당성을 검증하기 위하여 신문 기사의 정치 관련 문서에서 대명사의 격에 따라 100개씩 총 300개의 실험 대상을 선정하였으며, 실험 결과로 3인칭 대명사의 선행사 결정 정확도는 재현율이 79.0%, 정확률이 86.8%로 나타났다. When we extract a representative term from text for information retrieval system or a special information for information retrieval and text milling system, we often need to solve the anaphora resolution problem. The antecedent decision problem of a pronoun is one of the major issues for anaphora resolution. In this paper, we are suggesting a method of deciding an antecedent of the third personal pronouns, such as “he/she/they” to analyze the contents of documents precisely. Generally, the antecedent of the third personal Pronouns seem to be the subject of the current statement or previous statement, and also it occasionally happens more than twice. Based on these characteristics, we have found rules for deciding an antecedent, by investigating a case of being an antecedent from the personal pronouns, which appears in the current statement and the previous statements. Since the heuristic rule differs on the case of the third personal pronouns, we described it as subjective case, objective case, and possessive case based on the case of the pronouns. We collected 300 sentences that include a pronoun from the newspaper articles on political issues. The result of our experiment shows that the recall and precision ratio on deciding the antecedent of the third personal pronouns are 79.0% and 86.8%, respectively.

      • KCI등재

        정보통신 단말기를 위한 한글 모음 입력 시스템

        강승식,한광수,Kang Seung-Shik,Hahn Kwang-Soo 한국정보처리학회 2005 정보처리학회논문지B Vol.12 No.4

        휴대용 정보통신 단말기에서 한글 입력 방식은 단말기에 부착되어 있는 제한된 버튼만을 이용한다는 제약이 있다. 이 제약 조건 하에서 한글 모음을 편리하고 빠르게 입력할 수 있도록 8개의 기본 모음 집합으로부터 이중 모음을 조합하는 방식을 제안한다. 이 방식은 최대 2타로 모든 모음들이 조합될 수 있어서 신속한 입력이 가능하고, 이중 모음에 대해 사용자들이 익숙한 방법으로 조합될 수 있도록 2가지 이상의 조합 방식을 지원하여 사용자 편의성을 높였다 또한, 양성-음성 모음 간에 빈번하게 발생하는 입력 오류를 쉽게 수정할 수 있도록 양성 모음과 음성 모음이 추가 키 입력으로 전환되는 오류 수정 기능을 추가하였다. 기존의 모음 입력 방식들과 비교했을 때 제안한 방식이 입력의 신속성과 오류 수정의 용이성 등의 관점에서 매우 효율적임을 확인하였다. There is a limitation of using a small number of input buttons for writing Hangul words on hand-held devices. As a quick and convenient way of implementing Hangul vowels by small number of buttons, we propose a vowel input system in which vowels are fabricated from eight vowels. Our input system supports a fast input speed by making all the diphthong from one or two strokes. It also adopts a multiple input method for diphthong that users can make a diphthong in a user-friendly way of vowel writing formation or pronunciation similarity. Furthermore, we added an error correction functionality for the similar vowels that are caused by vowel harmony rules. When the proposed method is compared to the previous ones, our method outperformed in the input speed and error correction.

      • 음절 특성을 이용한 한국어 불규칙 용언의 형태소 분석

        강승식(Seung Shik Kang) 한국정보과학회 1995 정보과학회논문지(B) Vol.22 No.10

        한국어 형태소 분석에서 불규칙 용언을 분석하기 위해서는 입력 어절이 불규칙 활용 어절일 가능성을 검사하고 불규칙 용언의 기본형을 추정한다. 이 과정에서 불규칙 활용 어절뿐만 아니라 체언을 비롯하여 불규칙 활용이 일어나지 않은 대부분의 어절들에 대해서도 형태소 분석 후보를 생성하기 때문에 알고리즘의 효율이 저하되는 요인이 되고 있다. 그런데 한글 문서에는 불규칙 활용 어절이 드물게 사용되므로 대부분의 불규칙 활용을 처리하기 위해 생성된 분석 후보들은 최종적인 형태소 분석 결과로 선택되지 않는다. 본 논문에서는 분석 후보의 과생성으로 인한 비효율성을 극복하기 위하여 음절 특성을 이용함으로써 가능성이 없는 분석 후보의 생성을 방지하는 방법을 제안한다. 그럼으로써 형태소 분석시에 발생하는 사전 탐색 부담을 줄이고 분석 효율을 향상시킬 수 있다. For the recognition of Korean irregular verbs, input word is checked if there is any possibility to be analyzed as an irregular verb, and analysis candidate is generated. In this case, irregular verb candidates are generated also for nouns and others resulting in so many dictionary accesses and backtracking overhead. However, most of the irregular verb candidates are failed by the confirmation of candidate morphemes because only a small number of irregular verbs are included in the Korean text. To reduce the analysis overhead and improve the performance of the morphological analyzer, this paper proposes an efficient method that uses idiosyncratic characteristics of irregular syllables not to generate implausible candidates.

      • KCI등재

        SMS 변형된 문자열의 자동 오류 교정 시스템 (pp.386-391)

        강승식(Seung-Shik Kang),장두성(Du-Seong Chang) 한국정보과학회 2008 정보과학회논문지 : 소프트웨어 및 응용 Vol.35 No.6

        휴대폰과 메신저 등 통신 환경에서 문자 메시지를 전송할 때 표준어가 아닌 왜곡된 어휘들을 사용하고 있으며, 이러한 변형된 어휘들은 음성 인식, 음성 합성, 문서 정보 추출 등 언어처리 및 관련 분야의 응용 시스템에서 많은 문제점을 유발시킨다. 본 논문에서는SMS 문장들의 변형 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하고 시스템을 구현하였다. 시스템의 성능에 가장 큰 영향을 미치는 변형된 문자열 사전을 구축하는 방법으로 (1) 통신 어휘집을 기반으로 수동으로 구축하는 방법, (2) 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, (3) 자동으로 변형된 문자열을 추출할 때 좌우 문맥을 고려하는 방법에 대하여 시스템을 구현하고 실험을 통하여 비교-분석 및 성능 평가 결과를 제시하였다. Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.

      • 한국어 복합명사 분해 알고리즘

        강승식(Seung-Shik Kang) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.1

        형태소 분석 결과로 추정된 복합명사를 단위명사들로 분해하는 방법으로 네 개의 분해규칙과 두 가지 예외규칙을 사용하여 가능한 분해 후보들을 생성하고, 분해 후보들에 대해 가증치를 부여함으로써 최적 후보를 선택하는 알고리즘을 제안한다. 이 알고리즘은 미등록 단위명사가 포함되어 있는 복합명사를 분해할 수 있을 뿐만 아니라, 복합명사의 길이가 길고 짧음에 관계없이 동일하게 적용되는 특징이 있다. 알고리즘을 구현하여 두 가지 유형의 데이타 집합에 대하여 실험한 결과 데이타 중복을 허용했을 때 복합명사 분해 정확도는 97.95%였고, 미등록어들을 모두 사전에 수록했을 때는 정확도가 99.48%로 높아졌다. 또한, 복합명사의 음절 길이에 따라 각각 정확도를 측정하였을 때 평균 정확도는 약 91%였으며, 10 음절 이상의 긴 복합명사에 대해서도 동일하게 적용될 수 있음을 확인하였다. This paper proposes a decomposition algorithm of compound nouns, that generates possible candidates using 4 decomposition rules and 2 exception rules, and then selects the best candidate using a weighting method. This algorithm can separate an unregistered noun from compound nouns, and moreover it can be effective regardless of the length of compound noun. We Implemented and tested the algorithm for two types of data sets that are extracted from a real text. The success ratio of the algorithm was about 97.95% and could increase to 99.48% under the condition that unregistered nouns should be entered into the dictionary. We also tested the algorithm according to the number of syllables, in which the average success ratio was about 91%, and the algorithm turned out to be effective even on long-sized compound nouns of more than 10 syllables.

      • 정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용

        강승식 ( Seung-shik Kang ),전영진 ( Young-jin Chun ) 한국정보처리학회 2005 한국정보처리학회 학술대회논문집 Vol.12 No.1

        정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
