http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
임수종(Soojong Lim),김영태(Youngtae Kim),나동열(Dongyul Ra) 한국정보과학회 2011 정보과학회논문지 : 소프트웨어 및 응용 Vol.38 No.4
본 논문에서는 자질(feature)의 가중치를 학습하여 이용하는 기계학습 기반 한국어 의존 파싱의 한 기법을 소개한다. 시스템의 자질 집합은 모든 가능한 의존관계에 대하여 일정한 수의 자질들을 생성하여 구축한다. 자질마다 가중치에 의하여 그 중요도를 나타낸다. 자질 가중치 값은 의존관계가 부착된 학습 코퍼스(corpus)를 이용하여 학습한다. 이를 위해 세종 구구조 부착 코퍼스와 ETRI 의존구조 부착 코퍼스를 이용하였다. 우리가 채택한 학습 기법은 온라인(online) 학습알고리즘이다. 이것은 최대-마진(max-margin) 개념에 기반한 MIRA 학습 알고리즘에서 소개한 것과 유사한 기술을 사용한다. 실험 결과 우리 파싱 시스템의 성능은 세종 코퍼스에 의하여 개발하는 경우 의존관계 정확도 88.15%, ETRI 코퍼스를 이용하여 개발하는 경우 의존관계 정확도 88.06%인 것으로 측정되었다. 이는 우리의 기법으로 높은 성능의 한국어 의존 파싱 시스템의 개발이 가능함을 나타낸다. In this paper, we introduce a method for Korean dependency parsing based on machine learning by learning and using feature weights. The set of features of the system is constructed by generating a given number of features for every possible dependency relation. The degree of importance of a feature is represented by its weight. The weights are learned by using a training corpus in which dependency relations are tagged for each sentence. For this purpose, we used Sejong corpus tagged with phrase-structure trees and the ETRI corpus tagged with dependency structures. The training method we adopted is an on-line learning algorithm. It exploits a technique similar to that of the MIRA learning algorithm which is based upon the concept of max-margin. The experimental results showed that our parsing system’s performance was 88.15% of dependency relation accuracy when developed with Sejong corpus and 88.06% of accuracy when developed with ETRI corpus. This demonstrates that our method allows a development of a Korean dependency parsing system with high performance.
양성일(Seong-il Yang),김용운(Yong-un Kim),나동열(Dongyul Ra) 한국정보과학회 1993 한국정보과학회 학술발표논문집 Vol.20 No.2
자연어인터페이스 사용자모델에서 사용자의 의도를 파악하는 사용자 목적 추론은 매우 중요한 작업이다. 본 논문에서는 일반지식과 목적/계획 지식을 통합한 지식 표현 언어인 프레임네트를 이용하여 사용자의 목적을 추론하는 방법을 설명한다. 여기에 이용되는 계획추론 규칙들을 디몬 형태로 표현하여 모든 규칙들을 하나의 일반적인 인터프리터에 의해서 처리할 수 있게 한다. 각 추론 규칙을 사용자 질의의 지식베이스에 대한 투영의 창틀(window frame)로 이용하는 방법을 소개하며, 프레임네트를 이용하므로써 전체 지식베이스 중 관련이 있는 부분 만을 탐색할 수 있게 하여 처리 시간을 크게 감소시킬 수 있음을 보인다. 또한 정보검색 도메인과 관련이 있는 계획 추론 규칙들을 소개한다.
초성 우선배열 방식을 이용한 한글 초성 와일드카드 질의 고속 탐색 기법
김영태(Youngtae Kim),강동민(Dongmin Kang),박상우(Sangwoo Park),나동열(Dongyul Ra ) 한국정보과학회 2011 정보과학회 컴퓨팅의 실제 논문지 Vol.17 No.10
자동차의 내비게이터, 휴대폰, PDA 등에서 지역 검색 작업의 경우 기기의 특성상 검색어 타이핑 입력이 쉽지 않다. 따라서 이러한 상황에서 한글 초성을 이용하는 와일드카드 검색이 빈번하다. 게다가 전국 또는 대도시의 경우 검색 대상이 되는 지역 명칭의 수는 방대하여 효율적인 검색 기법이 중요하다. 본 논문은 이러한 초성을 사용하는 와일드카드 질의에 대하여 고속으로 명칭을 검색하여 주는 알고리즘을 소개한다. 이 알고리즘은 검색 속도를 높이기 위하여 “초성우선배열”이라는 새로운 사전 배열 방식을 이용한다. 그 결과 기존의 사전배열 방식을 이용하는 것과 비교할 때 높은 속도 향상을 이룰 수 있었다. 특히 질의 안에 초성 와일드카드 글자의 비중이 높을수록 더욱 속도 향상의 정도가 증가하였다. It is not easy in location search task to input search terms with typing when we use car navigators, cell phones, PDA, etc. because of device characteristics. Therefore, wildcard search with initial consonants in Korean(Hangul Chosung) is frequently used in these circumstances. Moreover, the number of location terms is huge in case of a whole country or a big city and thus efficient retrieval method is important. In this paper, we introduce an algorithm that enables high-speed retrieval for wildcard queries that use initial consonants. This algorithm utilizes a new lexicographic ordering scheme giving first priority to initial consonants to enhance retrieval speed, which resulted in great performance improvement compared with traditional lexicographic ordering. It was especially observed that increasing the number of initial consonant wildcard letters in a query led to faster search.