http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
기계학습을 이용한 중등 수준의 단문형 영어 작문 자동 채점 시스템 구현
이경호(Gyoung Ho Lee),이공주(Kong Joo Lee) 한국정보과학회 2014 정보과학회논문지 Vol.41 No.11
본 논문은 기계학습을 기반으로 하는 중등수준의 단문형 영어작문 자동채점시스템에 대해 제안한다. 본 논문에서는 기계학습을 이용한 영어 자동채점의 전반적인 수행 방법과 시스템의 구성 및 동작 방식, 채점자질의 고려사항에 대해 논한다. 학생 답안의 내용 완성도를 평가하기 위하여 문서의 내용을 요약한 “개념답안”을 제안하여 사용하였다. 본 연구에서는 여러 개의 기계학습 알고리즘을 사용하여 자동평가를 수행한다. 자동평가의 성능을 향상시키기 위해 여러 개의 기계학습 알고리즘의 결과를 최적으로 결합하여 하나의 최종 결과를 도출할 수 있는 “최적조합” 결정과정을 제안한다. 실제 학생들의 작문 데이터를 이용하여 시스템을 구축하고 자동채점 시스템의 성능 평가를 수행하였다. In this paper, we introduce an automatic scoring system for middle-school level writing test based on using machine learning techniques. We discuss overall process and features for building an automatic English writing scoring system. A "concept answer" which represents an abstract meaning of text is newly introduced in order to evaluate the elaboration of a student"s answer. In this work, multiple machine learning algorithms are adopted for scoring English writings. We suggest a decision process "optimal combination" which optimally combines multiple outputs of machine learning algorithms and generates a final single output in order to improve the performance of the automatic scoring. By experiments with actual test data, we evaluate the performance of overall automated English writing scoring system.
이경호 ( Gyoung Ho Lee ),이공주 ( Kong Joo Lee ) 한국정보처리학회 2013 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.2 No.10
본 논문은 사회의 최근 동향에 대한 여론의 반응을 관찰하기 위한 방법을 나타낸다. 최근 동향을 나타내는 키워드를 신문기사로부터 추출하 고, 추출된 키워드를 이용하여 수집된 트윗의 감성 분석을 통해 최근 동향에 대한 여론을 분석한다. 수집된 신문기사를 k-means알고리즘을 이 용하여 군집화하고, 군집내의 단어의 출현 빈도를 이용하여 토픽 키워드를 선정하였다. 각 토픽에 대하여 수집된 트윗은 그 토픽 대한 트윗이 라는 가정하에 기계학습 방법을 이용하여 긍/부정을 판별하여 감성을 판단하게 하였다. 그리고 이와 같은 가정에 대한 타당성을 검증해 보았다. We analyze public opinion via a sentiment analysis of tweets collected by using recent topic keywords extracted from newspaper articles. Newspaper articles collected within a certain period of time are clustered by using K-means algorithm and topic keywords for each cluster are extracted by using term frequency. A sentiment analyzer learned by a machine learning method can classify tweets according to their polarity values. We have an assumption that tweets collected by using these topic keywords deal with the same topics as the newspaper articles mentioned if the tweets and the newspapers are generated around the same time. and we tried to verify the validity of this assumption.
인간 컴퓨터 상호작용 : 단서표현 기반의 인물관련 질의-응답문 문장 주제 분류 시스템
이경호 ( Gyoung Ho Lee ),이공주 ( Kong Joo Lee ) 한국정보처리학회 2015 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.4 No.12
일반적으로 질의응답 시스템은 입력된 질문에 대한 정답을 찾기 위해 질문과 관련된 문서 또는 단락 단위의 검색을 수행한다. 그렇지만 단어 기반의 검색만으로는 정답을 포함하는 단락을 찾기 어려운 경우가 있다. 본 논문에서는 이러한 문제를 각 문장이 가지고 있는 주제를 통해 해결할 수 있다고 판단하고 이를 위한 질의-응답문의 주제 분류 시스템에 대해 연구하였다. 이러한 시스템을 위해 필요한 인물과 관련한 주제유형을 소개하고, 주제를 찾기 위한 단서표현을 정의하였다. 또한 단서표현기반으로 문장의 주제를 파악하는 시스템의 구성에 대해 소개하고, 이 시스템의 구성요소들에 대한 성능 평가를 수행하였다. In general, Q&A system retrieves passages by matching terms of a question in order to find an answer to the question. However it is difficult for Q&A system to find a correct answer because too many passages are retrieved and matching using terms is not enough to rank them according to their relevancy to a question. To alleviate this problem, we introduce a topic for a sentence, and adopt it for ranking in Q&A system. We define a set of person-related topic class and a clue expression which can indicate a topic of a sentence. A topic classification system proposed in this paper can determine a target topic for an input sentence by using clue expressions, which are manually collected from a corpus. We explain an architecture of the topic classification system and evaluate the performance of the components of this system.
인간컴퓨터 상호작용 : 영작문 자동평가를 위한 비속어 검출과 미등록어 분류
이경호 ( Gyoung Ho Lee ),김성권 ( Sung Gwon Kim ),이공주 ( Kong Joo Lee ) 한국정보처리학회 2014 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.3 No.9
본 논문에서는 중·고등 수준 단문형 영어 작문시험의 자동채점 시스템을 위한 사전 미등록어 분류기 구현에 대해 다룬다. 영어 자동채점 과정에서 발생하는 사전 미등록어의 유형을 정의하고 각 유형에 대한 검출 방법에 대해 논의하였다. 또한 영작문 답안에서 나타날 수있는 비속어의 유형을 정의하고 검출 방법에 대해 연구하였다. 영작문 자동평가 시스템의 모듈로서 비속어 검출 기능이 포함된 미등록어 분류기를 구현하였다. 미등록어 분류와 비속어 검출 방법에 대한 성능을 실제 시험 데이터에 적용하여 그 성능을 평가하였다. In this paper, we deal with implementation issues of an unknown word classifier for middle-school level English writing test. We define the type of unknown words occurred in English text and discuss the detection process for unknown words. Also, we define the type of swear words occurred in students``s English writings, and suggest how to handle this type of words. We implement an unknown word classifier with a swear detection module for developing an automatic English writing scoring system. By experiments with actual test data, we evaluate the accuracy of the unknown word classifier as well as the swear detection module.
이경호 ( Gyoung Ho Lee ),이공주 ( Kong Joo Lee ) 한국정보처리학회 2016 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.5 No.11
글이나 대화를 일정한 주제의 단위로 나누는 것을 주제 분리라고 한다. 지금까지 주제 분리는 주로 완결된 하나의 문서에서 최적화된 분리를 찾는 방향으로 진행되어 왔다. 하지만 몇몇 응용은 글이나 대화가 진행 중에 주제 분리를 할 필요가 있다. 본 논문에서는 합성곱 신경망을 이용한 교사 학습 모델을 통해 문장의 진행 중에 주제 분리를 수행하는 모델에 대해 제안한다. 그리고 제안한 모델의 성능 검증을 위해 On-line 상황을 가정한 실험과 기존의 C99모델을 결합한 실험을 수행하였다. 실험결과 각각 17.8과 11.95의 Pk 점수를 얻었고, 이를 통해 본 논문의 모델을 통한 On-line 상황에서의 주제 분리 활용의 가능성을 확인하였다. A topic segmentation module is to divide statements or conversations into certain topic units. Until now, topic segmentation has progressed in the direction of finding an optimized set of segments for a whole document, considering it all together. However, some applications need topic segmentation for a part of document which is not finished yet. In this paper, we propose a model to perform topic segmentation during the progress of the statement with a supervised learning model that uses a convolution neural network. In order to show the effectiveness of our model, we perform experiments of topic segmentation both on-line status and off-line status using C99 algorithm. We can see that our model achieves 17.8 and 11.95 of Pk score, respectively,
영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과
이경호(Gyoung Ho Lee),이공주(Kong Joo Lee) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.9
일반적으로, 교사 학습 알고리즘이 적절히 학습되기 위해서는 레이블의 편향이 없는 충분한 양의 학습데이터가 필요하다. 그러나 영작문 자동채점 시스템 개발을 위한 충분하고 편향되지 않은 학습데이터를 수집하는 것은 어려운 일이다. 또한 영어 작문 평가의 경우, 전체적인 답안 수준에 대한 다면적인 평가가 이루어진다. 적고 편향되기 쉬운 학습데이터와 이를 이용한 여러 평가영역에 대한 학습모델을 생성해야하기 때문에, 이를 위한 적절한 기계학습 알고리즘을 결정하기 어렵다. 본 논문에서는 이러한 문제를 앙상블학습을 통해 완화할 수 있음을 실험에 통해 보이고자 한다. 실제 중, 고등학교 학생들을 대상으로 시행된 단문형 영작문 채점 결과를 학습데이터 개수와 편향성을 조절하여 실험하였다. 학습데이터의 개수 변화와 편향성 변화의 실험 결과, 에이다부스트 알고리즘을 적용한 결과를 투표로 결합한 앙상블 기법이 다른 알고리즘들 보다 전반적으로 더 나은 성능을 나타냄을 실험을 통해 나타내었다. In order to train a supervised machine learning algorithm, it is necessary to have non-biased labels and a sufficient amount of training data. However, it is difficult to collect the required non-biased labels and a sufficient amount of training data to develop an automatic English Composition scoring system. In addition, an English writing assessment is carried out using a multi-faceted evaluation of the overall level of the answer. Therefore, it is difficult to choose an appropriate machine learning algorithm for such work. In this paper, we show that it is possible to alleviate these problems through ensemble learning. The results of the experiment indicate that the ensemble technique exhibited an overall performance that was better than that of other algorithms.