http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
배깅 기반의 부트스트래핑을 이용한 개체명 인식 학습 기법
정유진(Yujin Jeong),김주애(Juae Kim),고영중(Youngjoong Ko),서정연(Jungyun Seo) 한국정보과학회 2018 정보과학회논문지 Vol.45 No.8
기존 개체명 인식 연구는 지도학습에 기반한 개체명인식이 주를 이루고 있다. 지도학습에 기반한 개체명인식이 좋은 성능을 보이고 있지만, 대량의 정답 말뭉치를 구축하기 위해 많은 시간과 비용을 필요로 한다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 대량의 말뭉치에 수동으로 정답을 부여하기 위한 노력 없이, 개체명 인식 모델이 자동 생성한 정답을 학습에 사용하는 개체명 인식 모델 학습 기법을 제안한다. 제안 방법은 소량의 개체명 정답 말뭉치만으로 대량의 개체명 정답을 자동 생성하여 학습에 사용하므로, 대량의 정답 말뭉치를 생성하기 위해 필요한 시간과 비용을 크게 절감시킨다. 추가적으로 배깅 기법을 사용하여 자동 생성한 정답들 중 오류를 제거한다. 부트스트래핑 기법과 배깅 기법을 추가하였을때, F1 점수 최고 70.67%를 기록하였다. 비교를 위한 기본 CRF 개체명 인식 모델의 F1 점수는 65.59%를 기록하였다. Most previous named-entity(NE) recognition studies have been based on supervised learning methods. Although supervised learning-based NE recognition has performed well, it requires a lot of time and cost to construct a large labeled corpus. In this paper, we propose an NE recognition training method that uses an automatically generated labeled corpus to solve this problem. Since the proposed method uses a large machine-labeled corpus, it can greatly reduce the time and cost needed to generate a labeled corpus manually. In addition, a bagging-based bootstrapping technique is applied to our method in order to correct errors from the machine-labeled data. As a result, experimental results show that the proposed method achieves the highest F1 score of 70.76% by adding the bagging-based bootstrapping technique, which is 5.17%p higher than that of the baseline system.
다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템
권순재(Sunjae Kwon),김주애(Juae Kim),강상우(Sangwoo Kang),서정연(Jungyun Seo) 한국정보과학회 2016 정보과학회논문지 Vol.43 No.10
커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다. Community-based Question Answering system is a system which provides answers for each question from the documents uploaded on web communities. In order to enhance the capacity of question analysis, former methods have developed specific rules suitable for a target region or have applied machine learning to partial processes. However, these methods incur an excessive cost for expanding fields or lead to cases in which system is overfitted for a specific field. This paper proposes a multiple machine learning method which automates the overall process by adapting appropriate machine learning in each procedure for efficient processing of community-based Question Answering system. This system can be divided into question analysis part and answer selection part. The question analysis part consists of the question focus extractor, which analyzes the focused phrases in questions and uses conditional random fields, and the question type classifier, which classifies topics of questions and uses support vector machine. In the answer selection part, the we trains weights that are used by the similarity estimation models through an artificial neural network. Also these are a number of cases in which the results of morphological analysis are not reliable for the data uploaded on web communities. Therefore, we suggest a method that minimizes the impact of morphological analysis by using character features in the stage of question analysis. The proposed system outperforms the former system by showing a Mean Average Precision criteria of 0.765 and R-Precision criteria of 0.872.
문서의 감정 분류를 위한 주목 방법 기반의 딥러닝 인코더
권순재(Sunjae Kwon),김주애(Juae Kim),강상우(Sangwoo Kang),서정연(Jungyun Seo) 한국정보과학회 2017 정보과학회 컴퓨팅의 실제 논문지 Vol.23 No.4
최근 감정 분류 분야에서 딥러닝 인코더 기반의 접근 방법이 활발히 적용되고 있다. 딥러닝 인코더 기반의 접근 방법은 가변 길이 문장을 고정 길이 문서 벡터로 압축하여 표현한다. 하지만 딥러닝 인코더에 흔히 사용되는 구조인 장・단기 기억망(Long Short-Term Memory network) 딥러닝 인코더는 문서가 길어지는 경우, 문서 벡터 표현의 품질이 저하된다고 알려져 있다. 본 논문에서는 효과적인 감정 문서의 분류를 위해, 장・단기 기억망의 출력을 중요도에 따라 가중합하여 문서 벡터 표현을 생성하는 주목방법 기반의 딥러닝 인코더를 사용하는 것을 제안한다. 또한, 주목 방법 기반의 딥러닝 인코더를 문서의 감정 분류 영역에 맞게 수정하는 방법을 제안한다. 제안하는 방법은 윈도우 주목 방법(Window Attention Method)을 적용한 단계와 주목 가중치 재조정(Weight Adjustment) 단계로 구성된다. 윈도우 주목 방법은 한 단어 이상으로 구성된 감정 자질을 효과적으로 인식하기 위해, 윈도우 단위로 가중치를 학습한다. 주목 가중치 재조정에서는 학습된 가중치를 평활화(Smoothing) 한다, 실험 결과, 본 논문에서 제안하는 방법은 정확도 기준으로 89.67%의 성능을 나타내어 장・단기 기억망 인코더보다 높은 성능을 보였다. Recently, deep learning encoder-based approach has been actively applied in the field of sentiment classification. However, Long Short-Term Memory network deep learning encoder, the commonly used architecture, lacks the quality of vector representation when the length of the documents is prolonged. In this study, for effective classification of the sentiment documents, we suggest the use of attention method-based deep learning encoder that generates document vector representation by weighted sum of the outputs of Long Short-Term Memory network based on importance. In addition, we propose methods to modify the attention method-based deep learning encoder to suit the sentiment classification field, which consist of a part that is to applied to window attention method and an attention weight adjustment part. In the window attention method part, the weights are obtained in the window units to effectively recognize feeling features that consist of more than one word. In the attention weight adjustment part, the learned weights are smoothened. Experimental results revealed that the performance of the proposed method outperformed Long Short-Term Memory network encoder, showing 89.67% in accuracy criteria.