RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목

      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
          • 원문제공처
          • 등재정보
          • 학술지명
          • 주제분류
          • 발행연도
          • 작성언어
          • 저자

        오늘 본 자료

        • 오늘 본 자료가 없습니다.
        더보기
        • 무료
        • 기관 내 무료
        • 유료
        • A Semi-Automatic Tool for Building a Large Part-of-Speech Annotated Corpus

          임희석 천안대학교 2001 진리논단 Vol.- No.6

          Large part-of-speech(pos) annotated corpora play an important role in many kinds of natural language processing. So, the annotated corpus requires very high accuracy and consistency. To build such accurate and consistent corpus, we often use manual tagging. But the manual tagging is very labor intensive and expersive. Furthermore, it is not easy to get consistent results from the human experts. The goal of this work is to develope an efficient tool for building accurate and a consistent pos annotated corpus with minimal human labor. The developed tool can help minimize the amount of the human labor and make the results consistent by using lexical rules. The lexical rules are acquired from human experts in the similar way of manual tagging and manual error correction. They are used to annotate the same word in the same context in the whole corpus.

        • KCI등재후보

          메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식

          임희석,한군희 한국콘텐츠학회 2004 한국콘텐츠학회논문지 Vol.4 No.4

          This paper proposes a Korean sentence boundary detection system which employs k-nearest neighbor algorithm. We proposed three scoring functions to classify sentence boundary and performed comparative analysis. We uses domain independent linguistic features in order to make a general and robust system. The proposed system was trained and evaluated on the two kinds of corpus; ETRI corpus and KAIST corpus. As experimental results, the proposed system shows about 98.82% precision and 99.09% recall rate even though it was trained on relatively small corpus. 본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다. 문장 경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 98.82%의 문장 정확률과 99.09%의 문장 재현율을 보였다.

        • KCI등재후보

          정보검색 기법을 이용한 산업/직업 코드 자동 분류 시스템

          임희석 한국컴퓨터교육학회 2004 컴퓨터교육학회 논문지 Vol.7 No.4

          본 논문은 통계청에서 실시하는 인구 주택 총조사와 사업체 기초통계조사 시 실시되는 수작업에 의한 표준 산업/직업 코드 분류 시 발생하는 막대한 비용과 시간, 일관성의 결여 등을 해소하기 위한 표준 산업/직업 코드 자동 분류 시스템을 제안한다. 제안한 시스템은 정보 검색 기법과 문서 분류 기법을 이용하여 자연어로 기술된 레코드를 입력받아 입력 레코드에 해당하는 분류 코드를 생성한다. 수작업으로 올바른 코드가 할당되어 있는 산업 분류 레코드 46.762개와 직업 분류 코드 63.286개를 이용하여 10-fold cross-validation evaluation을 수행한 결과, 제안한 시스템은 완전 자동 모드에서 2수준의 산업 분류에 대해서 87.08%, 5수준에 대해서는 66.08%의 생성률을 보였으며 반자동 모드에서는 각각 99.10%와 92.88%의 성능을 보였다. 직업 분류 코드에 대한 성능은 산업 분류 코드에 대한 성능보다는 약간 저하된 성능을 보였다. 제안한 시스템은 아직 수작업을 완전히 대체할 수 있는 완전 자동 분류기로서는 많은 개선의 여지를 가지고 있지만 수작업을 최소화할 수 있는 반자동 도구나 수작업의 정확도를 검증할 수 있는 보조 도구로써 충분히 활용될 수 있을 것으로 기대된다. This paper proposes an automated coding system of Korean standard industry/occupation for census which reduces a lot of cost and labor for manual coding. The proposed system converts natural language responses on survey questionnaires into corresponding numeric codes using information retrieval techniques and document classification algorithm. The system was experimented with 46,762 industry records and occupation 36,286 records using 10-fold cross -validation evaluation method. As experimental results, the system show 87.08% and 66.08% production rates when classifying industry records into level 2 and level 5 codes respectively. The system shows slightly lower performances on occupation code classification. We expect that the system is enough to be used as a semi-automate coding system which can minimize manual coding task or as a verification tool for manual coding results though it has much room to be improved as an automated coding system.

        • KCI등재후보

          예제기반의 학습을 이용한 한국어 표준 산업/직업 자동 코딩 시스템

          임희석 한국콘텐츠학회 2005 한국콘텐츠학회논문지 Vol.5 No.4

          Standard industry and occupation code are usually assigned manually in Korean census. The manual coding is very labor intensive and expensive task. Furthermore, inconsistent coding is resulted from the ability of human experts and their working environments. This paper proposes an automatic code classification system which converts natural language responses on survey questionnaires into corresponding numeric codes by using manually constructed rule base and example-based machine learning. The system was trained with 400,000 records of which standard codes was assigned. It was evaluated with 10-fold cross validation and was tested with three code sets: population occupation set, industry set, and industry survey set. The proposed system showed 76.63%, 82.24 and 99.68% accuracy for each code set. 통계청에서 실시하는 사업체 기초 조사와 인구주택총조사 과정에 업체와 개인에 대한 정보를 기술한 자연어를 표준 산업/직업 코드를 할당하는 수동 코딩 작업이 필요하다. 수동 코딩 작업은 막대한 인건비와 비용을 초래하고 수동 코딩 전문가의 능력과 기분에 따른 작업 결과의 비일관성이 매우 큰 문제로 지적되고 있다. 본 논문은 수작업으로 구축한 규칙베이스를 사용하는 규칙 기반 방법과 수작업으로 분류한 데이터를 이용하는 자동 학습 방법을 통합한 한국어 산업/직업 표준 코드 자동 생성 시스템을 제안한다. 제안하는 시스템은 인구주택총조사 40만 레코드, 사업체기초조사 40만 레코드를 이용하여 학습되었고, 실험 데이터를 이용하여 평가되었다. 10-best 성능 평가 결과 제안된 시스템은 인구주택총조사 직업분류 데이터에 대해서 76.63%, 인구주택총조사 산업분류 데이터에 대해서 82.249%의 성능을 보였으며, 사업체기초조사 산업분류 데이터에 대해서는 99.68%의 정확도를 보였다.

        • 경험적 정보를 이용한 kNN 기반 한국어 문서 분류기의 개선

          임희석,남기춘 한국컴퓨터교육학회 2002 컴퓨터교육학회 논문지 Vol.5 No.3

          문서 자동 분류란 입력 문서에 이미 정해져 있는 특정 범주를 할당하는 작업을 의미하며 이는 문서의 효율적, 체계적 관리를 위하여 그 필요성이 증가하고 있는 실정이다. 현재 국내외에서 기계 학습 방법을 이용한 문서 자동 분류에 대한 연구가 활발히 진행되고 있으나 대부분의 연구는 문서 분류기의 성능 향상을 위한 새로운 학습 모델 제안과 학습 모델간의 상호 비교 연구에 치중되어 있으며 특정 학습 모델을 이용한 분류 시스템의 최적화나 개선 방안에 대한 연구는 다소 미흡한 실정이다. 이에 본 논문은 kNN 학습 방법을 이용한 문서 분류 시스템의 성능 향상에 중요한 역할을 하는 파라미터를 정의하고 실험을 통해서 얻은 경험적 정보를 이용한 한국어 문서 분류기 성능 개선 방안을 제안한다. 실험 결과, 이웃 문서들간의 유사도 가중치를 사용하는 분류 함수, 분류 정보를 이용한 자질 선택 방법, 그리고 전역적 분류 방법이 높은 성능을 보였고, 분류 영역에 따라 신중히 결정된 k값을 사용한 지역적 방법도 많은 계산량을 필요로 하는 전역적 방법과 유사한 성능을 보일 수 있음을 확인하였다. Automatic text classification is a task of assigning predefined categories to free text documents. Its importance is increased to organize and manage a huge amount of text data. There have been some researches on automatic text classification based on machine learning techniques. While most of them was focused on proposal of a new machine learning methods and cross evaluation between other systems, a through evaluation or optimization of a method has been rarely been done. In this paper, we propose an improving method of kNN-based Korean text classification system using heuristic informations about decision function, the number of nearest neighbor, and feature selection method. Experimental results showed that the system with similarity-weighted decision function, global method in considering neighbors, and DF/ICF feature selection was more accurate than simple kNN-based classifier. Also, we found out that the performance of the local method with well chosen k value was as high as that of the global method with much computational costs.

        • KCI등재후보

          효율적인 질의 응답시스템 개발을 위한 BM25기반의 단락 검색 시스템

          임희석,이영신,임해창 한국컴퓨터교육학회 2003 컴퓨터교육학회 논문지 Vol.6 No.4

          본 논문은 문서 단위 보다 작은 단락 단위의 검색 시스템을 사용하는 효율적인 질의 응답 시스템 개발을 위하여 문서 검색에서 성능이 검증된 Okapi 시스템의 BM25 알고리즘을 응용한 단락 검색 시스템을 제안하고, 단락 검색 시스템의 성능을 분석하고자 한다. 100만 건의 문서로 구성된 TREC Q&A track 테스트 컬렉션을 색인에 사용하고 TREC Q&A track 질의 집합 중 1~100번까지의 질의를 사용하여 실험한 결과 재현율이 100%가 되기 위해서는 문서 검색은 약 12만 문장을 검색해야 하는 반면, 단락 검색에서는 문서 검색의 약 1/17인 1700문장만으로도 100%의 재현율을 얻을 수 있음을 확인하였다. This paper proposes a passage retrieval system based on Okapi’s BM25 for developing an efficient QA system and evaluates performances of the passage retrieval system. The test collection of TREC Q&A track which is composed of about one million documents was indexed and a hundred queries of TREC Q&A track are used as testing queries. The experimental results shows that the proposed passage retrieval system can reach to 100% recall rate by searching in only 1700 sentences while the conventional document retrieval system have to search about 120 thousands sentences which are about 70 times more than the proposed passage retrieval system.

        맨 위로 스크롤 이동