RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구 = A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency

      한글로보기

      https://www.riss.kr/link?id=A105689696

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아...

      이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아보고자 하였다. 실험집단으로 한국일보-20000(HKIB-20000)의 일부를 이용하였다. 실험 결과 첫째, 장서빈도를 이용하여 고빈도 자질을 선정하고 저빈도 자질을 제거한 자질선정 방법이 문헌빈도보다 더 좋은 성능을 가져오는 것으로 나타났다. 둘째, 문헌빈도와 장서빈도 모두 저빈도 자질을 우선으로 선정하는 방법은 좋은 분류성능을 가져오지 못했다. 셋째, 장서빈도와 같은 단순빈도에서 자질 선정 구간을 조정하는 것이 문헌빈도와 장서빈도의 조합보다 더 좋은 성능을 가져오는 것으로 나타났다.

      더보기

      다국어 초록 (Multilingual Abstract)

      This study investigated the classification performance of a kNN classifier using the feature selection methods based on document frequency(DF) and collection frequency(CF). The results of the experiments, which used HKIB-20000 data, were as follows. F...

      This study investigated the classification performance of a kNN classifier using the feature selection methods based on document frequency(DF) and collection frequency(CF). The results of the experiments, which used HKIB-20000 data, were as follows. First, the feature selection methods that used high-frequency terms and removed low-frequency terms by the CF criterion achieved better classification performance than those using the DF criterion. Second, neither DF nor CF methods performed well when low-frequency terms were selected first in the feature selection process. Last, combining CF and DF criteria did not result in better classification performance than using the single feature selection criterion of DF or CF.

      더보기

      참고문헌 (Reference)

      1 정영미, "정보검색연구" 구미무역 출판부 2005

      2 이재윤, "자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 대한 연구" 한국문헌정보학회 39 (39): 123-146, 2005

      3 심경, "문헌범주화에서 학습문헌수 최적화에 관한 연구" 한국정보관리학회 23 (23): 277-294, 2006

      4 정은경, "문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구" 한국정보관리학회 26 (26): 261-278, 2009

      5 이용구, "단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구" 한국비블리아학회 22 (22): 5-25, 2011

      6 Tan, S., "Neighbor-weighted K-nearest Neighbor for Unbalanced Text Corpus" 28 (28): 667-671, 2005

      7 Jackson, P., "Natural Language Processing for Online Applications - Text Retrieval, Extraction and Categorization" Benjamins Publishing Co. 2002

      8 Sebastiani, F, "Machine Learning in Automated Text Categorization" 34 (34): 1-47, 2002

      9 Kim, J., "HKIB-2000 & HKIB-40075: Hangul Benchmark Collections for Text Categorization Research" 3 (3): 165-180, 2009

      10 "HKIB 실험집단"

      1 정영미, "정보검색연구" 구미무역 출판부 2005

      2 이재윤, "자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 대한 연구" 한국문헌정보학회 39 (39): 123-146, 2005

      3 심경, "문헌범주화에서 학습문헌수 최적화에 관한 연구" 한국정보관리학회 23 (23): 277-294, 2006

      4 정은경, "문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구" 한국정보관리학회 26 (26): 261-278, 2009

      5 이용구, "단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구" 한국비블리아학회 22 (22): 5-25, 2011

      6 Tan, S., "Neighbor-weighted K-nearest Neighbor for Unbalanced Text Corpus" 28 (28): 667-671, 2005

      7 Jackson, P., "Natural Language Processing for Online Applications - Text Retrieval, Extraction and Categorization" Benjamins Publishing Co. 2002

      8 Sebastiani, F, "Machine Learning in Automated Text Categorization" 34 (34): 1-47, 2002

      9 Kim, J., "HKIB-2000 & HKIB-40075: Hangul Benchmark Collections for Text Categorization Research" 3 (3): 165-180, 2009

      10 "HKIB 실험집단"

      11 "HAM 형태소 분석기"

      12 Azam, N., "Comparison of term frequency and document frequency based feature selection metrics in text categorization" 39 (39): 4760-4768, 2012

      13 Guyon, I., "An Introduction to Variable and Feature Selection" 3 : 1157-1182, 2002

      14 Yang, Y., "A re-examination of text categorization methods" 42-49, 1999

      15 Shang, W., "A novel feature selection algorithm for text categorization" 33 (33): 1-5, 2007

      16 Yang, Y, "A comparative study on feature selection in text categorization" 412-420, 1997

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2026 평가예정 재인증평가 신청대상 (재인증)
      2020-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2017-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2014-11-11 학술지명변경 외국어명 : 미등록 -> Journal of Korean Library and Information Science Society KCI등재
      2014-10-29 학술지명변경 외국어명 : 미등록 -> Journal of Korean Library and Information Science Society KCI등재
      2013-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2010-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-12-29 학회명변경 한글명 : 한국도서관ㆍ정보학회 -> 한국도서관·정보학회 KCI등재
      2008-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2006-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2004-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2001-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      1998-07-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.74 0.74 0.72
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.69 0.72 0.997 0.18
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼