RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        문장성분의 다양한 자질을 이용한 한국어 구문분석 모델

        박소영,김수홍,임해창,Park So-Young,Kim Soo-Hong,Rim Hae-Chang 한국정보처리학회 2004 정보처리학회논문지B Vol.11 No.6

        본 논문에서는 효과적인 구문 중의성 해결을 위해 문장성분의 구문자질, 기능자질, 내용자질, 크기자질을 활용하는 확률적 한국어 구문분석 모델을 제안한다. 그리고, 제안하는 구문분석 모델은 한국어의 부분자유어순과 생략현상을 잘 처리할 수 있도록 문법규칙을 이진형식으로 제한한다. 실험을 통해 제안하는 구문분석 모델의 성능을 각 자질조합별로 분석한다. 분석결과는 서로 다른 특징을 갖는 자질의 조합이 서로 유사한 특징을 갖는 자질의 조합보다 구문중의성 해결에 더 유용하다는 것을 보여준다. 또한, 단일자질인 기능자질이 내용자질과 크기자질의 조합보다 성능이 더 우수함을 알 수 있다. In this paper, we propose a probabilistic Korean parsing model using a syntactic feature, a functional feature, a content feature, and a site feature of a syntactic object for effective syntactic disambiguation. It restricts grammar rules to binary-oriented form to deal with Korean properties such as variable word order and constituent ellipsis. In experiments, we analyze the parsing performance of each feature combination. Experimental results show that the combination of different features is preferred to the combination of similar features. Besides, it is remarkable that the function feature is more useful than the combination of the content feature and the size feature.

      • 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템

        전희원(Hee-Won Jeon),임해창(Hae-Chang Rim) 한국정보과학회 언어공학연구회 2007 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2007 No.10

        최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행이 성행하고 있다. 일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단점이 있다. 본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다.

      • KCI등재

        다중 자질 결정 목록을 이용한 단어 의미 중의성 해결

        서희철(Hee-Cheol Seo),임해창(Hae-Chang Rim) 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.7·8

        본 논문에서는 결정 목록을 이용해서 단어 의미 중의성을 해결하는 방법을 제안한다. 결정 목록은 하나 이상의 규칙으로 구성되며, 각 규칙에는 신뢰도가 부여되어 있고, 규칙은 불린 함수(=조건, precondition)와 부류(=의미, class)로 구성되어 있다. 분류 대상이 만족하는 불린 함수를 가진 규칙들 중에서 가장 신뢰도가 높은 규칙에 의해서 분류 대상의 부류가 정해진다. 기존 방법에서는 하나의 자질로 하나의 불린 함수를 구성하는 단일 자질 결정 목록을 이용해서 단어 의미 중의성을 해결했다. 이 경우, 자료 부족 문제와 전처리 과정의 오류에 민감하게 반응한다는 문제점이 있다. 본 논문에서는 기존의 단일 자질 결정 목록의 문제점을 해결하기 위해서, 하나 이상의 자질로 불린 함수를 구성하는 다중 자질 결정 목록을 제안하고, 다중 자질 결정 목록을 이용하여, 단어 의미 중의성을 해결하는 방법을 기술하고 있다. 단일 자질 결정 목록과 다중 자질 결정 목록을 비교하기 위해서, 1개의 한국어 의미 부착 말뭉치와 5개의 영어 의미 부착 말뭉치를 대상으로 단어 의미 중의성 해결 실험을 했다. 실험 결과 6개의 말뭉치 모두에서 다중 자질 결정 목록이 단일 자질 결정 목록에 비해서 더 좋은 결과를 나타냈다. This paper proposes a method of disambiguating the senses of words using decision lists, which consists of rules with confidence values. The rule of decision list is composed of a boolean function(=precondition) and a class(=sense). Decision lists classify the instance using the rule with the highest confidence value that is matched with it. Previous work disambiguated the senses using single feature decision lists, whose boolean function was composed of only one feature. However, this approach can be affected more severely by data sparseness problem and preprocessing errors. Hence, we propose multiple feature decision lists that have the boolean function consisting of more than one feature in order to identify the senses of words. Experiments are performed with 1 sense tagged corpus in Korean and 5 sense tagged corpus in English. The experimental results show that multiple feature decision lists are more effective than single feature decision lists in disambiguating senses.

      • KCI등재

        한국어의 어순 구조를 고려한 Two-Path 언어모델링

        신중휘,박재현,이정태,임해창,Shin, Joong-Hwi,Park, Jae-Hyun,Lee, Jung-Tae,Rim, Hae-Chang 한국음향학회 2008 韓國音響學會誌 Vol.27 No.8

        The n-gram model is appropriate for languages, such as English, in which the word-order is grammatically rigid. However, it is not suitable for Korean in which the word-order is relatively free. Previous work proposed a twoply HMM that reflected the characteristics of Korean but failed to reflect word-order structures among words. In this paper, we define a new segment unit which combines two words in order to reflect the characteristic of word-order among adjacent words that appear in verbal morphemes. Moreover, we propose a two-path language model that estimates probabilities depending on the context based on the proposed segment unit. Experimental results show that the proposed two-path language model yields 25.68% perplexity improvement compared to the previous Korean language models and reduces 94.03% perplexity for the prediction of verbal morphemes where words are combined. n-gram 모델은 영어와 같이 어순이 문법적으로 제약을 받는 언어에 적합하다. 그러나 어순이 비교적 자유로운 한국어에는 적합하지 않다. 기존 연구는 어절 간 어순의 고려가 어려운 한국어의 특성을 반영한 twoply HMM을 제안했으나, 인접 어절 간 어순 구조를 반영하지 못하였다. 본 논문에서는 용언형태소 사이에 나타나는 인접 어절 간에 어순 특성을 반영하기 위해 두 어절을 결합하는 세그먼트 단위를 정의하고, 제안한 세그먼트 단위에서 문맥에 따라 확률을 달리 추정하는 two-path 언어모델을 제안한다. 그 결과 기존 한국어 언어모델에 비해 제안하는 two-path 언어모델은 기존 연구보다 25.68% 혼잡도를 줄였으며, 어절 간에 결합이 일어나는 경계인 용언형태소에서는 94.03%의 혼잡도를 줄였다.

      • KCI등재

        어휘 의미망의 형태 의미 관계 설정 -국어의 사건 명사를 중심으로-

        차준경 ( Joon Kyun Cha ),임해창 ( Hae Chang Rim ) 한민족문화학회 2010 한민족문화연구 Vol.34 No.-

        이 논문은 국어의 사건 명사를 대상으로 형태 의미 관계를 고찰하고 그 의미 관계를 어휘 의미망에 설정하는 것을 목적으로 한다. 형태 의미 관계는 형태론적으로 파생 관계에 있으면서 의미론적으로 유의 관계 등의 관련성을 갖는다. 이러한 의미 관계를 기존의 국어사전에서는 충분히 다루지 못한 것으로 보인다. 서술성 명사의 파생 용언의 경우, 명사의 부표제어로 다루어져 용언으로서의 용법을 충분히 제공하지 못하였다. 또한 다의적인 사건 명사의 경우, 어떤 의미에서 용언이 파생되었는지 명확히 제시하지 않고 있다. 본고에서는 <사건>과 <실체> 유형이 복합된 사건 명사를 대상으로 하여 이러한 형태 의미 관계를 고찰하였다. 그 내용을 요약하면 다음과 같다. 첫째, 사건 명사의 다의를 유의관계인 파생어로 나타낼 수 있고 이러한 관계를 국어사전의 유의 관계로 명시해야 한다. 둘째, 사건 명사에서 사건성과 실체성이 복합되어 실체로 해석되는 경우, 사건 명사의 의미 구조에서 참여자(논항) 중의 하나가 실체로 해석되는 것으로 볼 수 있다. 셋째, 사건 명사를 어기로 하는 파생어들은 사건 명사와 일정한 의미 관계를 갖고 있다. 즉, 사건 명사의 의미 구조의 참여자에 해당하며 이러한 의미를 파생어를 형성하여 나타내는 것이다. 이러한 형태 의미 관계를 어휘 의미망에 표상한다면 다의어의 의미를 문맥에서 자동적으로 생성하고 해석하는 등의 국어 정보 처리에 도움이 될 것이다. The aim of this paper is to describe the morpho―semantic relations in Korean event type nouns and to apply to developing a Korean lexical―semantic network. Morpho―semantic relations are related to derivational morphology and synonymy. These semantic relations have been overlooked in Korean dictionary. For instance, denominal verbs have been dealt with as sub―headwords of predicate nouns, and the usage of verbs was not provided in dictionary. In case of polysemous event nouns, dictionary do not provide enough information such as which meaning of a word can be a base form of a denominal verb. We focus on the complex type of nominals which can be interpreted to <event> and <entity> types. We find the interpretation of event types can be a base form of denominal verb, and the interpretation of entity types can be referred to synonymous derivational words. In addition, the meaning of entity types can be realized as a participant of semantic structure of event nouns such as actor, theme, result, time, place etc. These regular semantic relations can be described to between derivational words and base event nouns. If these morpho―semantic relations are represented to the lexical semantic network, we can automatically generate and interpret the contextual meaning of polysemous words.

      • 기계학습 기법을 이용한 문장경계인식

        박수혁 ( Su-hyuk Park ),임해창 ( Hae-chang Rim ) 한국정보처리학회 2008 한국정보처리학회 학술대회논문집 Vol.15 No.1

        본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능 하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

      • 한국어 정보 처리 시스템의 전처리를 위한 미등록어 추정 및 철자 오류의 자동 교정

        박봉래(Park Bong Rae),임해창(Rim Hae Chang) 한국정보처리학회 1998 정보처리학회논문지 Vol.5 No.10

        In this paper, we propose a method of recognizing unknown words and correcting spelling errors(including spacing errors) to increase the performance of Korean information processing systems. Unknown words are recognized through comparative analysis of two or more morphologically similar eojeols(spacing units in Korean) including the same unknown word candidates. And spacing errors and spelling errors are corrected by using lexicalized rules which are autimatically extracted from very large raw corpus. The extraction of the lexicalized rules is based on morphological and contextual similarities between error eojeols and their correction eojeols which are confirmed to be used in the corpus. The experimental result shows that our system can recognize unknown words in an accuracy of 98.9%, and can correct spacing errors and spelling errors in accuracies of 98.1% and 97.1%, respectively.

      • 자질집합선택 기반의 기계학습을 통한 한국어 기본구 인식의 성능향상

        황영숙,정후중,박소영,곽용재,임해창,Hwang, Young-Sook,Chung, Hoo-jung,Park, So-Young,Kwak, Young-Jae,Rim, Hae-Chang 한국정보과학회 2002 정보과학회논문지 : 소프트웨어 및 응용 Vol.29 No.9

        In this paper, we present an empirical study for improving the Korean text chunking based on machine learning and feature set selection approaches. We focus on two issues: the problem of selecting feature set for Korean chunking, and the problem of alleviating the data sparseness. To select a proper feature set, we use a heuristic method of searching through the space of feature sets using the estimated performance from a machine learning algorithm as a measure of "incremental usefulness" of a particular feature set. Besides, for smoothing the data sparseness, we suggest a method of using a general part-of-speech tag set and selective lexical information under the consideration of Korean language characteristics. Experimental results showed that chunk tags and lexical information within a given context window are important features and spacing unit information is less important than others, which are independent on the machine teaming techniques. Furthermore, using the selective lexical information gives not only a smoothing effect but also the reduction of the feature space than using all of lexical information. Korean text chunking based on the memory-based learning and the decision tree learning with the selected feature space showed the performance of precision/recall of 90.99%/92.52%, and 93.39%/93.41% respectively.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼