http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
이다니엘(Daniel Lee),김보겸(Bogyum Kim),곽수정(Sujeong Kwak),이재성(Jae Sung Lee) 한국정보과학회 2014 정보과학회논문지 : 소프트웨어 및 응용 Vol.41 No.6
한국어 확률기반 형태소 분석 모델들은 형태소 복원, 형태소 분리, 형태소 태깅 등의 단계로 수행된다. 이런 단계적 모델에서 형태소 복원이 첫 단계로 사용되는 경우, 다음 단계의 성능 상한(upper bound)에 영향을 준다. 본 논문에서는 통계적 기계번역 방식에 기반한 형태소 복원 확률 모델에서 성능에 영향을 줄 수 있는 여러 가지 요소들을 구분하고 각 요소들의 성능을 비교한다. 이러한 요소는 한글코드 표현 방법, 학습 자료 선택 방법, 변환 확률 계산식, 부족한 학습 자료의 평탄화 방법, 확률모델의 스택 디코딩 방법 등이다. 본 실험을 통해 각 요소의 성능을 비교하고, 형태소 복원 모델에 최적인 조합을 제안한다. The processing steps of Korean probabilistic morpheme analysis models consist of morpheme restoring step, morpheme segmentation step, and morpheme tagging step. If the morpheme restoring step is used in the first step in the procedural models, its performance limits the upper bound performance of the next ones. This paper evaluates the performance factors in the probabilistic Korean morpheme restoring model which is based on statistical machine translation method. The factors are Hangul coding scheme, morpheme translation probability calculation formula, training data selection, smoothing methods for sparse training data, and stack decoding methods of the model. Each factor is evaluated through experiment, and the best combination of the factors is suggested for the morpheme restoring model.
소셜 미디어 데이터의 세부 주제 레이블링을 위한 2단계 클러스터링
박용민(Yongmin Park),김보겸(Bogyum Kim),곽수정(Sujeong Kwak),이재성(Jae Sung Lee) 한국정보과학회 2014 정보과학회논문지 : 소프트웨어 및 응용 Vol.41 No.3
최근 소셜 네트워크 서비스의 사용량이 급증함에 따라, 이를 효과적으로 분석하고 이용하려는 연구가 활발히 진행 중이다. 소셜 미디어 데이터는 짧은 시간에 많은 양이 생산되기 때문에 효과적인 분석을 위해서는 이를 적절히 클러스터링하고, 요약(레이블링)해 줄 수 있는 기술이 필요하다. 그러나 기존의 문서 클러스터링 모델들은 여러 문장으로 구성된 일반적인 문서를 대상으로 하기 때문에 한 두 문장으로 구성된 짧은 소셜 미디어 데이터의 특징을 제대로 반영하지 못한다. 본 연구에서는 주제에 따라 긍정, 부정으로 분류된 소셜 미디어 데이터를 세부 주제별로 클러스터링하고 이를 요약하는 새로운 클러스터링 모델을 제안한다. 제안된 모델은 FTC(Frequent Term-based Clustering)와 GAAC(Group Average Agglomerative Clustering) 를 2단계로 적용한 것으로 정보가 부족한 데이터에 적합하며, 여러 주제에 대하여 중복으로 클러스터링할 수 있기 때문에 소셜 미디어 데이터 분석에 보다 효과적이다. As the use of Social Network Service (SNS) is sharply increasing, many researches have been done to analyze SNS data. Because much social media data is produced in a very short time, we need effective techniques for clustering and summarizing (or labeling) of the data. However, existing document clustering models are developed for general documents which usually consist of many sentences, they do not adequately reflect characteristics of social media data of which document is mostly composed of one or two sentences. In this paper, we propose a new clustering model which deals with pre-processed twitter data that is boardly classified into positive and negative opinion documents for board topics. The model clusters the pre-processed twitter data into sub topics and labels with short key words, using the proposed two-level clustering model based on FTC (Frequent Term-based Clustering) and GAAC (Group Average Agglomerative Clustering). The experiment showed that it is appropriate for sparse data and more effective for social media data analysis than other models.
한국어 형태소 복원을 위한 언어모델의 평탄화(smoothing)
이다니엘(Daniel Lee),김보겸(Bogyum Kim),이재성(Jae Sung Lee) 한국정보과학회 2012 한국정보과학회 학술발표논문집 Vol.39 No.1B
형태소 복원은 형태소 분석의 한 단계로 문장에 나타난 형태소의 변형 현상을 분석하여 규칙화하고 이를 이용하여 형태소 원형을 복원하는 것이다. 본 논문에서는 형태소 품사 부착 말뭉치로부터 다양한 형태소 변화 규칙을 학습하여 효과적으로 형태소 원형을 복원하기 위한 계산 방법을 비교한다. 이를 위해 계산 모델, 한글 코드, 학습 자료를 다르게 하여 학습하고 그에 따른 성능을 비교 분석한다.
곽수정 ( Sujeong Kwak ),김보겸 ( Bogyum Kim ),박용민 ( Yongmin Park ),이재성 ( Jae Sung Lee ) 한국정보처리학회 2014 한국정보처리학회 학술대회논문집 Vol.21 No.1
문서에서 공간 개체와 사건을 찾아내고, 이들 간의 위상적 관계나 의미적 관계를 찾아내는 것을 공간정보 추출이라고 한다. 본 논문에서는 언어분석 결과와 세종사전을 활용해 자연언어 문서에서 동작(motion) 사건 관계 중심의 공간 정보를 추출하는 규칙 기반 시스템을 제안하였다. 수동으로 구축한 20문장의 평가 집합에 대해 사건 관계 추출은 27.45%의 F-measure 성능을 보였다. 공간보다 비교적 많은 연구가 진행된 시간 관계 추출에 대한 최신 연구의 성능이 30∼35% 수준[1]인 것을 고려하여 볼 때, 본 연구는 공간 사건 관계 추출의 기초 연구로 의미가 있다.