RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        준지도 학습 기반의 자동 문서 범주화

        고영중(Youngjoong Ko),서정연(Jungyun Seo) 한국정보과학회 2008 정보과학회논문지 : 소프트웨어 및 응용 Vol.35 No.5

        자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업이다. 자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반으로서, 보통 수작업에 의해 범주가 할당된 대량의 학습 문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다는 것이다. 즉, 학습 문서 생성을 위해 문서를 수집하는 것은 쉬우나, 수집된 문서에 범주를 할당하는 것은 매우 어렵고 시간이 많이 소요되는 작업이라는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서, 준지도 학습 기반의 자동 문서 범주화 기법을 제안한다. 제안된 기법은 범주가 할당되지 않은 말뭉치와 각 범주의 핵심어만을 사용한다. 각 범주의 핵심어로부터 문맥간의 유사도 측정 기법을 이용한 부스트래핑(bootstrapping) 기법을 통하여 범주가 할당된 학습문서를 자동으로 생성하고, 이를 이용하여 학습하고 문서 범주화 작업을 수행한다. 제안된 기법은 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 영역에서 유용하게 사용될 수 있을 것이다. The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. While it is easy to collect the unlabeled documents, it is not so easy to manually categorize them for creating training documents. In this paper, we propose a new text categorization method based on semi-supervised learning. The proposed method uses only unlabeled documents and keywords of each category, and it automatically constructs training data from them. Then a text classifier learns with them and classifies text documents. The proposed method shows a similar degree of performance, compared with the traditional supervised learning methods. Therefore, this method can be used in the areas where low-cost text categorization is needed. It can also be used for creating labeled training documents.

      • KCI등재

        오류 데이타에 강한 자질 투영법 기반의 문서 범주화 기법

        고영중(Youngjoong Ko),서정연(Jungyun Seo) 한국정보과학회 2004 정보과학회논문지 : 소프트웨어 및 응용 Vol.31 No.4

        본 논문은 자질 투영법을 사용한 새로운 문서 분류기를 제안한다. 제안된 문서 분류기는 학습문서를 각 자질로의 투영으로써 표현한다. 문서를 위한 분류 작업은 투영된 각 자질로부터의 투표(voting) 에 기인한다. 실험을 통해서 본 제안된 문서 분류기는 단순한 구조에도 불구하고 높은 성능을 보이고 있으며, 특히 기존의 문서 범주화 기법에서 높은 성능을 보여왔던 최근린법(k-NN)과 지지벡터기계(SVM)와 비교했을 때 빠른 수행 속도와 오류 데이타가 많을 환경에서 높은 성능을 보인다는 장점이 있다. 또한 제안된 문서 분류기의 알고리즘이 매우 단순하기 때문에 분류기의 구현과 학습 과정이 쉽게 수행될 수 있다. 이러한 이유로 제안된 문서 분류기는 빠른 수행 속도와 견고성(robustness), 그리고 높은 성능을 요구하는 문서 범주화 응용 영역에 유용하게 사용될 수 있을 것이다. This paper presents a new text classifier based on a feature projection technique. In feature projections, training documents are represented as the projections on each feature. A classification process is based on individual feature projections. The final classification is determined by the sum from the individual classification of each feature. In our experiments, the proposed classifier showed high performance. Especially, it have fast execution speed and robustness with noisy data in comparison with k-NN and SVM, which are among the state-of-art text classifiers. Since the algorithm of the proposed classifier is very simple, its implementation and training process can be done very simply. Therefore, it can be a useful classifier in text classification tasks which need fast execution speed, robustness, and high performance.

      • 요구 사항 문장 범주화를 이용한 웹 기반의 요구 사항 추출 지원 시스템

        고영중(Youngjoong Ko),강기선(Kisun Kang),김재선(Jaeseon Kim),박수용(Sooyong Park),서정연(Jungyun Seo) 한국정보과학회 2000 정보과학회논문지 : 소프트웨어 및 응용 Vol.27 No.4

        시스템이 사용되는 분야가 점점 복잡해지고 대형화됨에 따라 시스템 개발에 있어 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 인터넷(internet)의 발전으로 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 자연어로 표현되는 요구 사항 문장을 유사도 측정 기법을 이용하여 주제별로 범주화(categorization)함으로써 분산 환경에서 수집된 요구 사항 문장을 분석하기 위한 기초를 제공할 수 있는 요구 사항 추출 지원 시스템을 제안한다. 제안된 시스템은 단어간, 문장간의 유사도 측정 기법을 이용하여 수집된 요구 사항 문장들을 주제별로 자동으로 분류함으로써 요구 사항 분석 시 초기 작업의 어려움을 줄이고 신속하고 정확하게 분석 작업을 수행하도록 지원할 것이다. 본 논문에서는 단어간, 문장간 유사도 측정 기법을 이용한 범주화 기법의 효율성을 실험을 통해 검증하였으며 구현된 시스템을 통해 추출, 처리되는 과정을 보여주고 있다. As a software becomes more complicated and large-scaled, it is very important for a software engineer to analyze user's requirements precisely and apply them effectively in the development stage. Due to the growth of the internet, the necessity of requirements elicitation and analysis in distributed environments has also become larger. This paper proposes a requirements elicitation supporting system that offer the basis for effectively analyzing requirements collected in distributed environments. The proposed system automatically categorizes collected requirements sentences into selected subject fields by measuring their similarity using a similarity measurement technique. Therefore, it reduces the difficulties in the initial stage of requirements analysis and it supports rapid and correct requirements analysis. This paper verifies the efficiency of the proposed system in similarity measurement techniques through experiments, and presents a process for requirements specifications elicitation using the embodied system

      • KCI등재

        문장 중요도를 이용한 자동 문서 범주화

        고영중(Youngjoong Ko),박진우(Jinwoo Park),서정연(Jungyun Seo) 한국정보과학회 2002 정보과학회논문지 : 소프트웨어 및 응용 Vol.29 No.5·6

        자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나, 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서 요약에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이타를 구축하고 실험하였으며 문장 중요도를 사용하지 않은 시스템 보다 향상된 성능을 얻을 수 있었다. Automatic text categorization is a problem of assigning predefined categories to free text documents. In order to classify text documents, we have to extract good features from them. In previous researches, a text document is commonly represented by the frequency of each feature. But there is a difference between important and unimportant sentences in a text document. It has an effect on the importance of features in a text document. In this paper, we measure the importance of sentences in a text document using text summarizing techniques. A text document is represented by features with different weights according to the importance of each sentence. To verify the new method, we constructed Korean news group data set and experiment our method using it. We found that our new method gave a significant improvement over a basis system for our data sets.

      • KCI등재

        오류 학습 문서 제거를 통한 문서 범주화 기법의 성능 향상

        한형동(Hyoungdong Han),고영중(Youngjoong Ko),서정연(Jungyun Seo) 한국정보과학회 2005 정보과학회논문지 : 소프트웨어 및 응용 Vol.32 No.9

        문서 범주화에서 이진 분류를 다중 분류에 적용할 때 일반적으로 ‘한 범주에 적합-다른 모든 범주에서는 부적합(One-Against-All) 판정 방법’을 사용한다. 하지만, 이러한 ‘한 범주에 적합-다른 모든 범주에서는 부적합 판정 방법’은 한 가지 문제점을 가지는데, 적합(positive) 집합의 문서들은 사람이 직접 범주를 할당한 것이지만 부적합(negative) 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 많이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 슬라이딩 원도우(sliding window) 기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 제안된 기법은 먼저 슬라이딩 윈도우 기법을 사용하여 오류 문서들을 추출하고 이들을 EM알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다. When we apply binary classification to multi-class classification for text categorization, we use the One-Against-All method generally. However, this One-Against-All method has a problem. That is, documents of a negative set are not labeled by human. Thus, they can include many noisy documents in the training data. In this paper, we propose that the Sliding Window technique and the EM algorithm are applied to binary text classification for solving this problem. We here improve binary text classification through extracting noise documents from the training data by the Sliding Window technique and re-assigning categories of these documents using the EM algorithm.

      • KCI등재
      • 유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현

        김학수(Harksoo Kim),고영중(Youngjoong Ko),박수용(Sooyong Park),서정연(Jungyun Seo) 한국정보과학회 2000 정보과학회논문지 : 소프트웨어 및 응용 Vol.27 No.1

        소프트웨어가 점점 복잡해지고 대형화됨에 따라서 사용자의 요구가 매우 다양해지고 있으며, 제품에 대한 기대 수준도 높아지고 있다. 그러므로, 사용자의 요구 사항을 정확히 분석하여 효과적으로 개발 단계에 적용하는 것은 매우 중요하다. 본 논문에서는 자연어로 표현되는 요구 사항 문서의 분석 시에 나타나는 오류를 효과적으로 줄이고, 수정하는데 사용될 수 있는 요구 분석 시스템을 제안한다. 제안된 시스템은 문서간 유사도 측정에 의해서 문서간의 의존성(dependency) 분석을 지원하고 문장간 유사도 측정에 의해서 요구 사항간의 연계성(traceability), 중복성(redundancy), 불일치성(inconsistency), 그리고 불완전성(imcompleteness)을 발견하는 것을 지원한다. 또한 모호한 문장을 추출하여 요구사항의 불명확성 (ambiguity)을 발견하는 기능도 제공한다. 문서간 유사도 측정을 위해서 사용된 색인 방법은 슬라이딩 윈도우 모델과 의존 구조 모델을 결합한 것으로 각 모델이 가지는 단점을 효과적으로 보완할 수 있다. 본 논문에서는 문서간, 문장간 유사도 측정 기법의 효율성을 실험을 통해 검증하였으며 구현된 시스템을 통해 분석 처리되는 과정을 보여주고 있다. As software becomes more complicated and large-scaled, user's demands become more varied and his expectation levels about software products are raised. Therefore it is very important that a software engineer analyzes user's requirements precisely and applies it effectively in the development step. This paper presents a requirements analysis system that reduces and revises errors of requirements specifications analysis effectively. As this system measures the similarity among requirements documents and sentences, it assists users in analyzing the dependency among requirements specifications and finding the traceability, redundancy, inconsistency and incompleteness among requirements sentences. It also extracts sentences that contain ambiguous words. Indexing method for the similarity measurement combines sliding window model and dependency structure model. This method can complement each model's weeknesses. This paper verifies the efficiency of similarity measure techniques through experiments and presents a proccess of the requirements specifications analysis using the embodied system.

      • KCI등재

        한국어 비교 마이닝을 위한 비교 요소 자동 추출

        양선(Seon Yang),고영중(Youngjoong Ko) 한국정보과학회 2011 정보과학회논문지 : 소프트웨어 및 응용 Vol.38 No.12

        본 논문은 비교 문장이 주어졌을 때 각 문장에서 세 가지 비교 요소(비교 주체, 비교 상대, 비교 술어)를 자동 추출하는 방법에 대해 제안한다. 이 연구는 비교 마이닝(comparison mining) 시스템 구축의 일환으로 진행된다. 비교 마이닝은 텍스트 마이닝의 한 분야로서, 대용량의 텍스트를 대상으로 비교 관계를 자동 분석하며, 1) 비교 문장인지 아닌지를 식별하는 단계, 2) 비교 유형을 분류하는 단계, 3) 다양한 비교 요소들을 추출하는 단계, 4) 추출된 요소를 집계 및 분석하는 단계 등을 거치게 되는데, 본 논문에서는 그 중 세 번째 단계인 비교 요소 추출에 대해 연구한다. 본 실험에서는, 우열 비교 및 최상급 비교 문장들을 대상으로 먼저 각 문장 내에서 비교 요소 후보들을 먼저 선정하고, 그 후보들을 중심으로 품사 패턴을 추출한 후, 그 패턴을 자질로 하여 기계 학습을 수행하여 후보들 중 정답 비교 요소를 찾아낸다. 인터넷 상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 비교 요소를 추출한 결과, 전체 정확도 86.81%의 우수한 성능을 산출할 수 있었다. In this paper, we study to extract three types of comparative elements (subject entities, object entities, and predicates) from comparative sentences. This study is a part of comparison mining. Comparison mining, as one area of text mining, analyzes comparative relations from the large amount of text documents. It needs to go through several processing steps; 1) extracting comparative sentences from text documents, 2) classifying those sentences into different types, 3) mining comparative elements from each sentence and 4) presenting the summary of comparisons. We first detect comparative element candidates from two types of comparative sentences (‘Greater or lesser’ type and ‘Superlative’ type) by simplifying POS sequences. Then, we selected the correct elements among the candidates using machine learning techniques. In our experiment using various web documents, we extract comparative elements with significant performance, an accuracy of 86.81%.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼