http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
정보검색 기법을 이용한 산업/직업 코드 자동 분류 시스템
임희석 한국컴퓨터교육학회 2004 컴퓨터교육학회 논문지 Vol.7 No.4
본 논문은 통계청에서 실시하는 인구 주택 총조사와 사업체 기초통계조사 시 실시되는 수작업에 의한 표준 산업/직업 코드 분류 시 발생하는 막대한 비용과 시간, 일관성의 결여 등을 해소하기 위한 표준 산업/직업 코드 자동 분류 시스템을 제안한다. 제안한 시스템은 정보 검색 기법과 문서 분류 기법을 이용하여 자연어로 기술된 레코드를 입력받아 입력 레코드에 해당하는 분류 코드를 생성한다. 수작업으로 올바른 코드가 할당되어 있는 산업 분류 레코드 46.762개와 직업 분류 코드 63.286개를 이용하여 10-fold cross-validation evaluation을 수행한 결과, 제안한 시스템은 완전 자동 모드에서 2수준의 산업 분류에 대해서 87.08%, 5수준에 대해서는 66.08%의 생성률을 보였으며 반자동 모드에서는 각각 99.10%와 92.88%의 성능을 보였다. 직업 분류 코드에 대한 성능은 산업 분류 코드에 대한 성능보다는 약간 저하된 성능을 보였다. 제안한 시스템은 아직 수작업을 완전히 대체할 수 있는 완전 자동 분류기로서는 많은 개선의 여지를 가지고 있지만 수작업을 최소화할 수 있는 반자동 도구나 수작업의 정확도를 검증할 수 있는 보조 도구로써 충분히 활용될 수 있을 것으로 기대된다. This paper proposes an automated coding system of Korean standard industry/occupation for census which reduces a lot of cost and labor for manual coding. The proposed system converts natural language responses on survey questionnaires into corresponding numeric codes using information retrieval techniques and document classification algorithm. The system was experimented with 46,762 industry records and occupation 36,286 records using 10-fold cross -validation evaluation method. As experimental results, the system show 87.08% and 66.08% production rates when classifying industry records into level 2 and level 5 codes respectively. The system shows slightly lower performances on occupation code classification. We expect that the system is enough to be used as a semi-automate coding system which can minimize manual coding task or as a verification tool for manual coding results though it has much room to be improved as an automated coding system.
사료첨가용 LG-Vit C의 유효성 검정 : 산란계 생산성과 난각색도에 미치는 영향
임희석,백인기 中央大學校 食糧資源硏究所 2001 食糧資源硏究所 論文集 Vol.13 No.1
An experiment was conducted to determine the effects of LG-vitamin C supplementation on the performance and egg quality of layers. A total of 180 ISA Brown layers of 75 weeks old was assigned to one of the following diets containing 0, 10, or 100ppm LG-vitamin C. The feeding trial was conducted for three weeks when the average ambient temperature was 9.14~14.75℃. Each treatment was replicated three times with 20 birds housed in 2 birds cage units. Vitamin C supplementation did not improvement in overall performances. Eggshell color of birds fed 10ppm of LG vitamin C were more higher then eggshell color of Birds fed 100ppm in color fan test, but there was no different with control. In conclusion, supplementation of vitamin C at the level of 10, 100ppm did not significantly influence the laying performance and eggshell color of laying hens under normal ambient(9.14-14.75℃) condition.
경험적 정보를 이용한 kNN 기반 한국어 문서 분류기의 개선
임희석,남기춘 한국컴퓨터교육학회 2002 컴퓨터교육학회 논문지 Vol.5 No.3
문서 자동 분류란 입력 문서에 이미 정해져 있는 특정 범주를 할당하는 작업을 의미하며 이는 문서의 효율적, 체계적 관리를 위하여 그 필요성이 증가하고 있는 실정이다. 현재 국내외에서 기계 학습 방법을 이용한 문서 자동 분류에 대한 연구가 활발히 진행되고 있으나 대부분의 연구는 문서 분류기의 성능 향상을 위한 새로운 학습 모델 제안과 학습 모델간의 상호 비교 연구에 치중되어 있으며 특정 학습 모델을 이용한 분류 시스템의 최적화나 개선 방안에 대한 연구는 다소 미흡한 실정이다. 이에 본 논문은 kNN 학습 방법을 이용한 문서 분류 시스템의 성능 향상에 중요한 역할을 하는 파라미터를 정의하고 실험을 통해서 얻은 경험적 정보를 이용한 한국어 문서 분류기 성능 개선 방안을 제안한다. 실험 결과, 이웃 문서들간의 유사도 가중치를 사용하는 분류 함수, 분류 정보를 이용한 자질 선택 방법, 그리고 전역적 분류 방법이 높은 성능을 보였고, 분류 영역에 따라 신중히 결정된 k값을 사용한 지역적 방법도 많은 계산량을 필요로 하는 전역적 방법과 유사한 성능을 보일 수 있음을 확인하였다. Automatic text classification is a task of assigning predefined categories to free text documents. Its importance is increased to organize and manage a huge amount of text data. There have been some researches on automatic text classification based on machine learning techniques. While most of them was focused on proposal of a new machine learning methods and cross evaluation between other systems, a through evaluation or optimization of a method has been rarely been done. In this paper, we propose an improving method of kNN-based Korean text classification system using heuristic informations about decision function, the number of nearest neighbor, and feature selection method. Experimental results showed that the system with similarity-weighted decision function, global method in considering neighbors, and DF/ICF feature selection was more accurate than simple kNN-based classifier. Also, we found out that the performance of the local method with well chosen k value was as high as that of the global method with much computational costs.
A Semi-Automatic Tool for Building a Large Part-of-Speech Annotated Corpus
임희석 천안대학교 2001 진리논단 Vol.- No.6
Large part-of-speech(pos) annotated corpora play an important role in many kinds of natural language processing. So, the annotated corpus requires very high accuracy and consistency. To build such accurate and consistent corpus, we often use manual tagging. But the manual tagging is very labor intensive and expersive. Furthermore, it is not easy to get consistent results from the human experts. The goal of this work is to develope an efficient tool for building accurate and a consistent pos annotated corpus with minimal human labor. The developed tool can help minimize the amount of the human labor and make the results consistent by using lexical rules. The lexical rules are acquired from human experts in the similar way of manual tagging and manual error correction. They are used to annotate the same word in the same context in the whole corpus.
메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식
임희석,한군희 한국콘텐츠학회 2004 한국콘텐츠학회논문지 Vol.4 No.4
This paper proposes a Korean sentence boundary detection system which employs k-nearest neighbor algorithm. We proposed three scoring functions to classify sentence boundary and performed comparative analysis. We uses domain independent linguistic features in order to make a general and robust system. The proposed system was trained and evaluated on the two kinds of corpus; ETRI corpus and KAIST corpus. As experimental results, the proposed system shows about 98.82% precision and 99.09% recall rate even though it was trained on relatively small corpus. 본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다. 문장 경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 98.82%의 문장 정확률과 99.09%의 문장 재현율을 보였다.
효율적인 질의 응답시스템 개발을 위한 BM25기반의 단락 검색 시스템
임희석,이영신,임해창 한국컴퓨터교육학회 2003 컴퓨터교육학회 논문지 Vol.6 No.4
본 논문은 문서 단위 보다 작은 단락 단위의 검색 시스템을 사용하는 효율적인 질의 응답 시스템 개발을 위하여 문서 검색에서 성능이 검증된 Okapi 시스템의 BM25 알고리즘을 응용한 단락 검색 시스템을 제안하고, 단락 검색 시스템의 성능을 분석하고자 한다. 100만 건의 문서로 구성된 TREC Q&A track 테스트 컬렉션을 색인에 사용하고 TREC Q&A track 질의 집합 중 1~100번까지의 질의를 사용하여 실험한 결과 재현율이 100%가 되기 위해서는 문서 검색은 약 12만 문장을 검색해야 하는 반면, 단락 검색에서는 문서 검색의 약 1/17인 1700문장만으로도 100%의 재현율을 얻을 수 있음을 확인하였다. This paper proposes a passage retrieval system based on Okapi’s BM25 for developing an efficient QA system and evaluates performances of the passage retrieval system. The test collection of TREC Q&A track which is composed of about one million documents was indexed and a hundred queries of TREC Q&A track are used as testing queries. The experimental results shows that the proposed passage retrieval system can reach to 100% recall rate by searching in only 1700 sentences while the conventional document retrieval system have to search about 120 thousands sentences which are about 70 times more than the proposed passage retrieval system.