http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
최맹식(Maengsik Choi),김학수(Harksoo Kim) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1C
본 논문에서는 대용량의 말뭉치로부터 사회망을 자동 구축하기 위한 선행 연구로서 두 인명 사이의 사회관계를 포함하는 문장을 자동 선별하는 시스템을 제안한다. 제안 시스템은 먼저 2개의 인명을 포함하는 문장을 대상으로 형태소 분석과 의존 구조 분석을 수행한다. 그리고 두 인명의 공통 지배소를 기준으로 의존 트라이그램을 추출한다. 마지막으로 의존 트라이그램의 속성값 비교에 기반한 SVM 커널 함수를 이용하여 사회 관계 포함 여부를 결정한다. 실험 결과, 제안 방법이 영어권 연구에서 좋은 성능을 보인 최소 경로 의존 커널의 단점을 효과적으로 보완하였다. 또한, 사회망 자동 구축을 위한 도구로써 활용될 수 있음을 알 수 있었다.
최맹식(Maengsik Choi),정석원(Seokwon Jeong),김학수(Harksoo Kim) 한국정보과학회 2014 정보과학회논문지 : 소프트웨어 및 응용 Vol.41 No.4
한국어 문장의 구조를 분석하기 위해 의존구조 분석을 많이 사용한다. 대부분의 의존구조 분석방법은 어절 사이의 의존 관계 유무만을 결과로 제시하며 주어, 목적어 그리고 수식어 등의 정보를 제공하지 않는다. 본 논문에서는 의존구조 분석과 의존 관계명 부착을 동시에 수행하는 모델을 제안한다. 제안방법은 CRFs(Condition Random Fields)를 이용한 다단계 구 단위화(cascade chunking) 방법을 통해 의존구조와 의존 관계명을 결합한 태그를 문장 각각의 어절에 부착한다. 세종 구문 분석 말뭉치를 이용하여 10배 교차 검증 실험을 통해 통합된 모델의 성능(정밀도 81.11%)이 의존구조 분석과 의존 관계명 부착의 2단계 모델보다 높은 성능을 보였다. In Korean, dependency parsing is frequently used to analyze syntactic structures of sentences. Most of the previous dependency parsing methods return only whether dependency relations between eojeols (spacing unit of Korean) exist or not. They do not return the names of dependency relations such as subject, object, modifier, and so on. In this paper, we propose an integrated dependency parsing model that finds dependency relations and annotates with dependency labels at the same time. The proposed model annotates each eojeol in a sentence with various tags, which combine dependency relations and dependency labels, by using a cascade chunking method based on conditional random fields (CRFs). In the 10-fold cross validation experiments with Sejong syntactic parsing corpus, the integrated model showed the better performance (the accuracy of 81.11%) than the previous two-step model that annotates with dependency labels after finding dependency relations.
최맹식(Maengsik Choi),김학수(Harksoo Kim) 한국정보과학회 2011 정보과학회 컴퓨팅의 실제 논문지 Vol.17 No.10
본 논문에서는 대용량의 말뭉치로부터 사회망을 자동 구축하기 위한 시스템을 제안한다. 제안 시스템은 입력 문장의 두 인명 사이의 사회 관계 포함 여부를 결정하는 부분과 사회 관계를 표현하는 어절을 추출하는 두 부분으로 구성된다. 효과적으로 시스템을 구현하기 위해 SVM을 이용하여 의존 트라이 그램 커널이라는 새로운 트리 커널을 만들었다. 신문기사를 이용한 실험에서, 제안한 시스템이 잘 알려져 있는 의존 커널을 기반으로 하는 이전 시스템보다 특히 재현율에서 더 좋은 성능을 보였다. 실험 결과에 의해 제안한 시스템이 사회망 자동 구축을 위한 도구로써 활용될 수 있음을 알 수 있었다. We propose a social relation extraction system for automatically constructing a socia network from a large amount of text. The proposed system consists of two subsystems: One is a subsystem to determine whether an input sentence includes a social relation between two people, and the other is a subsystem to determine which eojeol (a spacing unit in Korean) describes a social relation. We design new tree kernels called dependency trigram kernels for effectively implementing these subsystems by using support vector machines (SVMs). In the experiments with news articles, the proposed system showed better performances especially in recall rates than the previous system based on the well-known dependency kernel. On the basis of experimental results, we suggest that the proposed system can be a useful tool for automatically constructing social networks from text
정석원 ( Seok-won Jeong ),최맹식 ( Maengsik Choi ),김학수 ( Harksoo Kim ) 한국정보처리학회 2016 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.5 No.11
상호참조 해결은 문서 내에 존재하는 멘션들을 식별하고, 참조하는 멘션끼리 군집화하는 것으로 정보 추출, 사건 추적, 질의응답과 같은 자연어처리 응용에 필수적인 과정이다. 최근에는 기계학습에 기반한 다양한 상호참조 해결 모델들이 제안되었으며, 잘 알려진 것처럼 이런 기계학습 기반 모델들은 상호참조 멘션 태그들이 수동으로 부착된 대량의 학습 데이터를 필요로 한다. 그러나 한국어에서는 기계학습 모델들을 학습할 가용한 공개 데이터가 존재하지 않는다. 그러므로 본 논문에서는 다른 기계학습 모델보다 적은 학습 데이터를 필요로 하는 효율적인 상호참조 해결 모델을 제안한다. 제안 모델은 시브-가이드 자질 기반의 랜덤 포레스트를 사용하여 상호참조하는 멘션들을 구분한다. 야구 뉴스 기사를 이용한 실험에서 제안 모델은 다른 기계학습 모델보다 높은 0.6678의 CoNLL F1-점수를 보였다. Coreference resolution is to identify mentions in documents and is to group co-referred mentions in the documents. It is an essential step for natural language processing applications such as information extraction, event tracking, and question-answering. Recently, various coreference resolution models based on ML (machine learning) have been proposed, As well-known, these ML-based models need large training data that are manually annotated with coreferred mention tags. Unfortunately, we cannot find usable open data for learning ML-based models in Korean. Therefore, we propose an efficient coreference resolution model that needs less training data than other ML-based models. The proposed model identifies co-referred mentions using random forests based on sieve-guided features. In the experiments with baseball news articles, the proposed model showed a better CoNLL F1-score of 0.6678 than other ML-based models.