http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화
고수정(Soo-Jung Ko),최준혁(JunHyeog Choi),이정현(Jung-Hyen Lee) 한국정보과학회 2001 정보과학회논문지 : 소프트웨어 및 응용 Vol.28 No.8
지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관계를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않는 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF?IDF를 이용한 단어 정제 방법과 비교한다. The query expansion in the KBQP(Knowledge Based Query Processor) needs a knowledge base being considered semantic relation among words. Because established simple mining technique extracts the association words without considering user preference, it shows higher recall but lower accuracy. In this paper, we propose a method to construct optimized association word knowledge base that improves the accuracy of categorization and includes only the association words of user preference being considered semantic relation among words. For the purpose, web documents on the field of computer are categorized into 8 classes and nouns are extracted from each classified web document. Association words are mined from these nouns by Apriori algorithm and association words which user doesn't prefer are pruned by genetic algorithm. For the purpose of evaluating the performance of Apriori and Genetic algorithm designed in this paper, Apriori algorithm is compared with Rocchio algorithm and mutual information, and genetic algorithm is compared with word refining method using TF · IDF.
문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동 분류 : 베이지안 분류자
허준희(Jun-Hui Her),고수정(Soo-Jeong Ko),김태용(Tae-Yong Kim),최준혁(Jun-Hyeog Choi),이정현(Jung-Hyun Lee) 한국정보과학회 1999 한국정보과학회 학술발표논문집 Vol.26 No.2Ⅱ
문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.