http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Sentiment Polarity Identification of Comments Using Machine Learning
서형원(Hyung-Won Seo),김형철(Hyung-Chul Kim),김재훈(Jae-Hoon Kim) 한국마린엔지니어링학회 2009 한국마린엔지니어링학회 학술대회 논문집 Vol.2009 No.-
In this paper, we describe a method for sentiment polarity identification of comments in Korean news articles using machine learning. For using machine learning, we need a corpus annotated with the polarities like positive and negative. The corpus in Korean is not available and then we build the corpus. The resultant corpus consists of almost 1400 documents and 8000 comments. Also for using machine learning we need several kinds of feature sets like terms. Especially this paper uses novel feature sets, which are a sentiment lexicon and a feature set related with body text in a news articles, but not comments. The sentiment lexicon in Korean is not available either and then we made it from English sentiment lexicon using an English-Korean dictionary. The feature set concerned with body text are terms and a category of a news article. To evaluate the proposed method, we used a SVM classifier with three methods for feature selection (document frequency, Chi-Square Score, and Information Gain); Our experiments have shown that the performance in case using Chi-Square score is the best. Furthermore this paper has demonstrated that sentiment words and body text are effective for sentiment polarity identification of comments in news articles.
서형원 ( Hyung-won Seo ),김형철 ( Hyung-chul Kim ),조희영 ( Hee-young Cho ),김재훈 ( Jae-hoon Kim ),양성일 ( Sung-il Yang ) 한국정보처리학회 2006 한국정보처리학회 학술대회논문집 Vol.13 No.2
인터넷이 발전하면서 웹에는 같은 내용을 다양한 언어로 표현한 문서들이 많이 존재한다. 이와 같은 웹 문서의 성질을 이용하여, 이 논문은 웹으로부터 수집된 병렬문서(parallel document)를 이용하여 한영 병렬말뭉치 구축 시스템을 설계하고 구현한다. 이 논문에서 구축과정을 요약하면 다음과 같다. 첫째, 웹 문서수집기를 이용해서 웹으로부터 한영 웹문서(html 문서)를 각각 수집한다. 둘째, 수집된 각 언어의 웹 문서에서 불필요한 내용(태그와 광고 문구 등)을 제거하여 문장을 추출하고, 추출된 문장을 단락단위로 정렬한다. 셋째, 단락단위로 정렬된 문서를 문장정렬(sentence alignment) 방법을 이용해서 문장을 정렬한다. 끝으로 정렬된 병렬문장을 단어 단위로 분리하여 병렬말뭉치를 구축한다. 이와 같은 방법으로 이 논문에서는 약 42만 5천 문장의 한영 병렬말뭉치를 구축하였다.
김형철(Hyung-Chul Kim),서형원(Hyung-Won Seo),김재훈(Jae-Hoon Kim) 한국마린엔지니어링학회 2009 한국마린엔지니어링학회 학술대회 논문집 Vol.2009 No.-
Part-of-Speech(POS) tagging is the process of assigning words in a text to a particular part-of-speech. Many approaches such as rule-based approaches, statistical approaches, and so on have been applied to the POS tagging problem and most of the approaches have achieved very high accuracy of 95% or more. They, however, still have a notorious problem called an unknown word problem, which has been hardened still further these days because many coined words in Web documents have been produced continuously and continuously. This paper tackles the problem using a discriminative sequence model, conditional random fields (CRF). We have observed that affixes like prefixes and suffixes are very useful as features of CRF model through some experiments. The performance is the best when the length of prefixes and suffixes are 2 and 3, respectively.
조희영(Hee-Young Cho),서형원(Hyung-Won Seo),김재훈(Jae-Hoon Kim),양성일(Sung-Il Yang) 한국정보과학회 언어공학연구회 2006 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2006 No.10
이 논문에서 통계기반의 정렬기법을 이용한 한영/영한 양방향 명사구 기계번역 시스템을 설계하고 구현한다. 정렬기법을 이용한 기계번역 시스템을 구축하기 위해서는 많은 양의 병렬말뭉치(corpus)가 필요하다. 이 논문에서는 병렬 말뭉치를 구축하기 위해서 웹으로부터 한영 대역쌍을 수집하였으며 수집된 병렬 말뭉치와 단어 정렬 도구인 GIZA++ 그리고 번역기(decoder)인 PARAOH(Koehn,2004), RAMSES(Patry et al., 2002), MARIE(Crego et al.,2005)를 사용하여 한영/영한 양방향 명사구 번역 시스템을 구현하였다. 약 4만 개의 명사구 병렬 말뭉치를 학습 말뭉치와 평가 말뭉치로 분리하여 구현된 시스템을 평가하였다. 그 결과 한영/영한 모두 약 37% BLEU를 보였으나, 영한 번역의 성공도가 좀 더 높았다. 앞으로 좀 더 많은 양의 병렬 말뭉치를 구축하여 시스템의 성능을 향상시켜야 할 것이며, 지속적으로 병렬 말뭉치를 구축할 수 있는 텍스트 마이닝 기법이 개발되어야 할 것이다. 무엇보다도 한국어 특성에 적합한 단어 정렬 모델이 연구되어야 할 것이다. 또한 개발된 시스템을 다국어 정보검색 시스템에 직접 적용해서 그 효용성을 평가해보아야 할 것이다.
김재훈(Jae-Hoon Kim),서형원(Hyung-Won Seo),전길호(Kil-Ho Jeon),최명길(Myung-Gil Choi) 한국마린엔지니어링학회 2010 한국마린엔지니어링학회 학술대회 논문집 Vol.2010 No.4
Sejong corpus is a Korean corpus annotated with various linguistic information. The corpus contains a raw corpus, a part-of-speech (POS) tagged corpus, a syntactic tree bank and so on, according to the annotated information. This paper is related to the POS-tagged corpus, which is annotated with the POS information and used to develop natural language processing (NLP) systems, such as information retrieval, information extract, etc. The Sejong POS-tagged corpus had been built by the National Institute of the Korean Language for 9 years and consists of 10.6 million words. However, it's hard to use the corpus for developing some NLP systems because of various types of errors in the corpus. We treat errors which original words mismatch the concatenation of tagged morphemes. In this paper, we represent a method for detecting the errors and correcting them, and also our results. First, the error detection is to find mismatches of strings between original words and the concatenation of their analyzed words. The mismatches is candidates of errors and contains some valid forms transformed by irregular or phoneme conjugations. We develop a program to filter the valid forms out. The remaining mismatches are modified according to error types as follows: 1) Unnecessarily inserted or deleted words had been corrected by regular expressions, which are made manually. 2) Some special symbols as errors didn't be recognized by annotators correctly and had been corrected manually. 3) Others as the remaining errors account for very small portion and had also been corrected manually. As the result of our effort, the Sejong POS-tagged corpus is improved as good as it is useful for some applications.
중간언어 문맥벡터의 정제를 통한 이중언어 사전 구축의 성능개선
권홍석(Hong-seok Kwon),서형원(Hyung-Won Seo),김재훈(Jae-Hoon Kim) 한국정보과학회 2014 정보과학회논문지 : 소프트웨어 및 응용 Vol.41 No.7
본 논문은 중간언어 기반 이중언어 사전 구축 방법에서 문맥벡터의 정제 방법을 제안한다. 중간언어 기반 이중언어 사전 구축 방법은 두 언어 간의 사전이나 병렬말뭉치 등 언어 자원이 부족한 언어쌍에 매우 효과적인 방법이다. 본 논문은 두 가지 정제 방법을 통해서 성능을 개선한다. 첫 번째 방법은 양방향 번역확률을 통하여 문맥벡터를 정제하였고 두 번째 방법은 품사 정보를 이용하여 문맥벡터를 정제하였다. 본 논문은 두 개의 서로 다른 언어 쌍으로 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 48.5%를, 상위 20에서 최대 88.5%의 정확도를 얻었고, 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 26.5%를, 상위 20에서 최대 66.5%의 성능을 보였다. This paper presents the performance enhancement of automatic bilingual lexicon extraction by using refinement of pivot-context vectors under the standard pivot-based approach, which is very effective method for less-resource language pairs. In this paper, we gradually improve the performance through two different refinements of pivot-context vectors: One is to filter out unhelpful elements of the pivot-context vectors and to revise the values of the vectors through bidirectional translation probabilities estimated by Anymalign and another one is to remove non-noun elements from the original vectors. In this paper, experiments have been conducted on two different language pairs that are bi-directional Korean-Spanish and Korean-French, respectively. The experimental results have demonstrated that our method for high-frequency words shows at least 48.5% at the top 1 and up to 88.5% at the top 20 and for the low-frequency words at least 43.3% at the top 1 and up to 48.9% at the top 20.
김태웅(Tae-Woong Kim),조희영(Hee-Young Cho),서형원(Hyung-Won Seo),김재훈(Jae-Hoon Kim) 한국정보과학회 언어공학연구회 2006 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2006 No.10
한국어 부분 구문분석의 단위인 말덩이(chunk)는 하나의 의미적 중심어를 가지며, 그 구문구조가 선형인 구를 말하며, 말덩이를 분석하는 과정을 구묶음(chunking)이라고 한다. 한국어 말덩이에는 여러 종류가 있으며 보조용언도 말덩이의 한 종류이다. 이 논문은 (한국해양대학교, 2005)의 연구를 바탕으로 오류를 자주 발생시킨 의존명사를 포함하는 보조용언에 대한 명확한 기준을 제시하여 구축된 말뭉치의 신뢰성을 더욱 높이고자 한다. 이 논문에서는 모든 의존명사를 포함하는 보조용언을 다루기에는 더 많은 연구가 필요하므로 “것”, “바”, “때문”, “데” 등의 의존명사를 포함하는 보조용언을 구성하는 말덩이를 중심으로 명확한 기준을 언어학적인 방법으로 제시하고, 말뭉치 구축 오류를 방지할 수 있는 해결방안을 모색한다.