http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
정보 검색 시스템 평가를 위한 균형 테스트 컬렉션 구축
맹성현,이석훈,이준호,이응봉,송사광 한국정보관리학회 1999 정보관리학회지 Vol.16 No.2
There has been some research in Korea on test collections for evaluation of information retrieval (IR) systems. The test collections constructed as an outcome from the research have provided a starting point and opportunities to test Korean IR systems in an objective manner. However, they are well short of the standard practice in the broader IR community in that they are small in their size and usually unbalanced in terms of the characteristics of the documents and the queries (such as the subject domains). In this article, we describe our research effort to alleviate this problem and the resulting test collection, called HANTEC (Hangul TEst Collection). HANTEC is balanced in terms of the subject domains, document lengths, and user types, and currently consists of 120,000 documents divided into three groups: general area, social science area and scienceltechnology area. The 30 queries in the collection are grouped into the same three areas in one dimension and into three distinct user groups in the other dimension. 검색 시스템들의 평가를 위해 국내에서도 테스트 컬렉션에 관한 여러 연구가 진행되어왔다. 그러나 그 규모나 대상 분야가 편중되어 있고 질의 및 문헌 특성의 균형 등에 대한 고려가 반영되어 있지 않아 평가 결과를 객관화하기는 사실상 어려운 실정이다. 본 논문에서는 분야별, 사용자별 균형을 고려한 대규모 테스트 컬렉션인 HANTEC에 대해 기술한다. HANTEC 테스트 컬렉션은 총 12만 건의 문헌집합으로 구성되었는데 일반, 사회과학, 과학기술 각 분야별 4만 건씩으로 특정 분야에 편중되지 않도록 하였고 질의집합도 각 분야별 10개씩 30개로 구성하였다.
장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류
이용배,맹성현 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.12
A genre-based classification means classifying documents by the purpose for which they were written, not by the semantics or subject areas. Most genre classifying methods in the past were based on the existing documents categorization algorithms and ineffective for feature selections, resulting in low quality classification results. In this research, we propose a new method for automatic classification of digital documents by genre. The genre classifier we developed uses the deviation statistic between the genre-revealing term frequencies and between the subject-revealing term frequencies within a genre. We collected Web documents to evaluate the proposed genre classification method. The experimental results show that the proposed method outperforms a direct application of a kai-square feature selection and bayesian classifier often used for subject classification by proving an excellent accuracy of about 30 percent. 장르기반 분류는 문서를 내용이나 주제가 아닌 문서의 형식 또는 스타일에 의해 분류하는 것을 의미한다. 현재 장르분류 방법은 기존의 주제기반 분류방법에 사용되었던 알고리즘을 그대로 이용하거나 자질선택 방법에 있어서도 효과적이지 못하고 비교적 단순하여 분류 정확률 또한 상대적으로 낮았다. 본 연구에서는 장르기반으로 문서를 자동 분류할 수 있는 새로운 방법론을 제시한다. 장르분류 방법은 크게 두 가지 정보를 이용하여 학습과 분류를 하는데 장르 간 용어의 편차정보와 장르 내에 분포되어 있는 주제 범주 간 용어의 편차정보를 이용한다. 제안된 방법의 성능을 측정하기 위해 인터넷상에서 정제되지 않은 문서를 수집하였으며 이를 대상으로 실험한 결과 기존의 카이제곱 자질선택 방법 및 베이지안 분류 알고리즘과 비교하여 약 30% 정도 우수한 정확도를 나타내었다.