http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
지배소 후보 집합을 이용한 한국어 의존 구문 분석 알고리즘
안광모(KwangMo Ahn),서영훈(YoungHoon Seo) 한국정보과학회 2014 정보과학회논문지 : 소프트웨어 및 응용 Vol.41 No.1
본 논문에서는 ‘지배소 후보 집합(sets of head candidates)’을 이용한 한국어 의존 구문 분석(dependency parsing) 알고리즘을 제안한다. 본 논문에서 제안하는 알고리즘은 모든 의존소와 지배소의 관계를 전역적으로 탐색하는 일반적인 비결정적 의존 구문 분석과는 다르게 각 의존소에 대하여 문법적 관계를 가질 수 있는 지배소 후보들을 제한하여 분석의 복잡도를 감소시켰다. 그리고 한국어 구문 분석시 일반적으로 고려되는 교착어적 특징, 지배소 후위 및 투사성(projectivity) 원칙을 반영한다. 학습데이터 및 평가데이터로는 세종 구문 분석 말뭉치를 의존 구문 분석 말뭉치의 형태로 변환하여 사용하였으며, 실험결과는 아크단위 87.52%의 정확도(accuracy)와 문장단위 34.43%의 정확도를 보였다. 또한 본 논문에서 제안하는 알고리즘은 문장의 길이에 따라서 CYK 파싱 알고리즘보다 약 3배에서 11배 정도 빠른 구문 분석 속도를 보였다. This paper presents Korean dependency parsing algorithm using sets of head candidates. In this algorithm, the characteristics of Korean language has been used, which are agglutinative, head-final, and projective. Our approach differs from the general non-deterministic dependency parsing that searches whole dependents and heads globally. Instead of considering whole dependents and heads, we restrict to only heads which could be related in grammar for each dependent. Such an approach can reduce the parsing complexity. In addition, we have modified the structure of Sejong tree-tagged to dependency structures, which was originally composed of phrase structures. Such a tagged corpus has been used for training and test data. Our experiments show 87.52% arc accuracy and 34.43% sentence accuracy, respectively. Furthermore, the proposed algorithm shows 3 to 11 times faster than CYK parsing algorithm depending on the lengths of sentences.
이충희(ChungHee Lee),서영훈(YoungHoon Seo),김현기(HyunKi Kim) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.3
본 논문은 기계학습 방법과 필터링 방법을 결합해서 경쟁관계를 인식하는 방법에 대한 연구이다. 기존 연구들은 기계학습 방법에만 의존해서 관계유형을 인식하는 연구들이 대부분이며. 사용되는 자질도 일반적인 관계유형에 적합한 자질을 사용하고 특히 구문분석 정보가 매우 중요한 자질로 사용된다. 본 논문에서는 구문분석 등의 언어분석 결과를 이용하지 않고, 단순한 자질들(어휘, 거리, 위치, 단서단어)만을 사용해도 경쟁관계 인식에 효과적임을 확인하였다. 또한, 경쟁관계인식 긍정 정확도를 향상시킬 수 있는 문장별 경쟁유무 분류방법, 스팸분류 방법, 거리제약 기반 자질필터링 방법을 기계학습 방법과 결합한 방법론을 제안한다. 방법론 검증을 위해서 뉴스분야 2,565개 문장을 평가셋으로 구축하였고, 비교 평가를 위해서 규칙기반 경쟁관계 인식기와 기존연구의 관계추출 방법론에 기반한 일반 관계추출기를 적용해서 비교하였다. 성능평가 결과로 규칙기반 엔진이 긍정정확도와 전체정확도(accuracy)가 81.2%와 56.8% 성능을 보였고, 일반 관계추출기는 61.2%와 56.3%를 보였다. 그에 비해서 본 논문에서 제안하는 방법은 긍정 정확도 92.2%와 전체정확도 71.3% 성능을 보여서 경쟁관계 인식에 효과적임을 확인하였다. This study was directed at the design of a hybrid algorithm for competition relation extraction. Previous works on relation extraction have relied on various lexical and deep parsing indicators and mostly utilize only the machine learning method. We present a new algorithm integrating machine learning with various filtering methods. Some simple but useful features for competition relation extraction are also introduced, and an optimum feature set is proposed. The goal of this paper was to increase the precision of competition relation extraction by combining supervised learning with various filtering methods. Filtering methods were employed for classifying compete relation occurrence, using distance restriction for the filtering of feature pairs, and classifying whether or not the candidate entity pair is spam. For evaluation, a test set consisting of 2,565 sentences was examined. The proposed method was compared with the rule-based method and general relation extraction method. As a result, the rule-based method achieved positive precision of 0.812 and accuracy of 0.568, while the general relation extraction method achieved 0.612 and 0.563, respectively. The proposed system obtained positive precision of 0.922 and accuracy of 0.713. These results demonstrate that the developed method is effective for competition relation extraction.
강유환(Yuhwan Kang),고병일(Byeongil Ko),서영훈(Younghoon Seo) 한국정보과학회 2004 한국정보과학회 학술발표논문집 Vol.31 No.1B
본 논문은 사람 이름의 특성을 이용한 이름 인식과 이름의 성별 구분 방법에 대해 제안한다. 사람 이름을 묻는 질의문은 질의-응답 시스템에서 자주 나타난다. 모든 사람 이름을 사전에 등록하는 것은 어렵다. 경우에 따라서는 남녀 이름을 구분할 필요가 있다. 한국 사람 이름의 특성은 주로 3음절로 이루어져 있고, 성씨로 사용되는 음절의 수가 제한적이라는 것이다. 또한 이름에는 한자 독음이 많이 쓰이고, 남자 이름으로 자주 쓰이는 음절과 여자 이름으로 자주 쓰이는 음절이 있다. 이러한 특성을 이용하여 사람 이름 인식과 성별 구분을 수행한다. 일반 웹 문서에서의 실험 결과, 이름 인식의 정확률은 94%를 보였고, 남녀 이름 구분의 정확률은 98%를 보였다.