RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 사회망 자동 구축을 위한 사회 관계 포함 문장 추출

        최맹식(Maengsik Choi),김학수(Harksoo Kim) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1C

        본 논문에서는 대용량의 말뭉치로부터 사회망을 자동 구축하기 위한 선행 연구로서 두 인명 사이의 사회관계를 포함하는 문장을 자동 선별하는 시스템을 제안한다. 제안 시스템은 먼저 2개의 인명을 포함하는 문장을 대상으로 형태소 분석과 의존 구조 분석을 수행한다. 그리고 두 인명의 공통 지배소를 기준으로 의존 트라이그램을 추출한다. 마지막으로 의존 트라이그램의 속성값 비교에 기반한 SVM 커널 함수를 이용하여 사회 관계 포함 여부를 결정한다. 실험 결과, 제안 방법이 영어권 연구에서 좋은 성능을 보인 최소 경로 의존 커널의 단점을 효과적으로 보완하였다. 또한, 사회망 자동 구축을 위한 도구로써 활용될 수 있음을 알 수 있었다.

      • KCI등재

        사회관계망 자동 구축을 위한 사회 관계 인스턴스 추출

        최맹식(Maengsik Choi),김학수(Harksoo Kim) 한국정보과학회 2011 정보과학회 컴퓨팅의 실제 논문지 Vol.17 No.10

        본 논문에서는 대용량의 말뭉치로부터 사회망을 자동 구축하기 위한 시스템을 제안한다. 제안 시스템은 입력 문장의 두 인명 사이의 사회 관계 포함 여부를 결정하는 부분과 사회 관계를 표현하는 어절을 추출하는 두 부분으로 구성된다. 효과적으로 시스템을 구현하기 위해 SVM을 이용하여 의존 트라이 그램 커널이라는 새로운 트리 커널을 만들었다. 신문기사를 이용한 실험에서, 제안한 시스템이 잘 알려져 있는 의존 커널을 기반으로 하는 이전 시스템보다 특히 재현율에서 더 좋은 성능을 보였다. 실험 결과에 의해 제안한 시스템이 사회망 자동 구축을 위한 도구로써 활용될 수 있음을 알 수 있었다. We propose a social relation extraction system for automatically constructing a socia network from a large amount of text. The proposed system consists of two subsystems: One is a subsystem to determine whether an input sentence includes a social relation between two people, and the other is a subsystem to determine which eojeol (a spacing unit in Korean) describes a social relation. We design new tree kernels called dependency trigram kernels for effectively implementing these subsystems by using support vector machines (SVMs). In the experiments with news articles, the proposed system showed better performances especially in recall rates than the previous system based on the well-known dependency kernel. On the basis of experimental results, we suggest that the proposed system can be a useful tool for automatically constructing social networks from text

      • KCI등재

        CRFs를 이용한 의존구조 분석 및 의존 관계명 부착

        최맹식(Maengsik Choi),정석원(Seokwon Jeong),김학수(Harksoo Kim) 한국정보과학회 2014 정보과학회논문지 : 소프트웨어 및 응용 Vol.41 No.4

        한국어 문장의 구조를 분석하기 위해 의존구조 분석을 많이 사용한다. 대부분의 의존구조 분석방법은 어절 사이의 의존 관계 유무만을 결과로 제시하며 주어, 목적어 그리고 수식어 등의 정보를 제공하지 않는다. 본 논문에서는 의존구조 분석과 의존 관계명 부착을 동시에 수행하는 모델을 제안한다. 제안방법은 CRFs(Condition Random Fields)를 이용한 다단계 구 단위화(cascade chunking) 방법을 통해 의존구조와 의존 관계명을 결합한 태그를 문장 각각의 어절에 부착한다. 세종 구문 분석 말뭉치를 이용하여 10배 교차 검증 실험을 통해 통합된 모델의 성능(정밀도 81.11%)이 의존구조 분석과 의존 관계명 부착의 2단계 모델보다 높은 성능을 보였다. In Korean, dependency parsing is frequently used to analyze syntactic structures of sentences. Most of the previous dependency parsing methods return only whether dependency relations between eojeols (spacing unit of Korean) exist or not. They do not return the names of dependency relations such as subject, object, modifier, and so on. In this paper, we propose an integrated dependency parsing model that finds dependency relations and annotates with dependency labels at the same time. The proposed model annotates each eojeol in a sentence with various tags, which combine dependency relations and dependency labels, by using a cascade chunking method based on conditional random fields (CRFs). In the 10-fold cross validation experiments with Sejong syntactic parsing corpus, the integrated model showed the better performance (the accuracy of 81.11%) than the previous two-step model that annotates with dependency labels after finding dependency relations.

      • KCI등재

        위키백과로부터 기계학습 기반 한국어 지식베이스 구축

        정석원(Seok-won Jeong),최맹식(Maengsik Choi),김학수(Harksoo Kim) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.8

        지식베이스는 자연어 처리 기반의 다양한 응용 시스템 성능에 영향을 미치는 중요한 요소이다. 영어권에서는 WordNet, YAGO, Cyc, BabelNet과 같은 지식베이스들이 널리 사용되고 있다. 본 논문에서는 위키백과와 YAGO로부터 YAGO 형식의 한국어 지식베이스(이하 K-YAGO)를 자동 구축하는 방법을 제안한다. 제안 시스템은 YAGO와 위키백과 인포박스간의 간단한 매칭을 통해 초기 K-YAGO를 구축한 뒤, 기계학습을 이용하여 초기 K-YAGO를 확장한다. 실험 결과, 제안 시스템은 초기 K-YAGO 구축 실험에서 0.9642의 신뢰도를 보였고, K-YAGO 확장 실험에서 0.9468의 정확도와 0.7596의 매크로 F1 척도를 보였다. The performance of many natural language processing applications depends on the knowledge base as a major resource. WordNet, YAGO, Cyc, and BabelNet have been extensively used as knowledge bases in English. In this paper, we propose a method to construct a YAGO-style knowledge base automatically for Korean (hereafter, K-YAGO) from Wikipedia and YAGO. The proposed system constructs an initial K-YAGO simply by matching YAGO to info-boxes in Wikipedia. Then, the initial K-YAGO is expanded through the use of a machine learning technique. Experiments with the initial K-YAGO shows that the proposed system has a precision of 0.9642. In the experiments with the expanded part of K-YAGO, an accuracy of 0.9468 was achieved with an average macro F1-measure of 0.7596.

      • KCI등재

        랜덤 포레스트를 이용한 한국어 상호참조 해결

        정석원 ( Seok-won Jeong ),최맹식 ( Maengsik Choi ),김학수 ( Harksoo Kim ) 한국정보처리학회 2016 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.5 No.11

        상호참조 해결은 문서 내에 존재하는 멘션들을 식별하고, 참조하는 멘션끼리 군집화하는 것으로 정보 추출, 사건 추적, 질의응답과 같은 자연어처리 응용에 필수적인 과정이다. 최근에는 기계학습에 기반한 다양한 상호참조 해결 모델들이 제안되었으며, 잘 알려진 것처럼 이런 기계학습 기반 모델들은 상호참조 멘션 태그들이 수동으로 부착된 대량의 학습 데이터를 필요로 한다. 그러나 한국어에서는 기계학습 모델들을 학습할 가용한 공개 데이터가 존재하지 않는다. 그러므로 본 논문에서는 다른 기계학습 모델보다 적은 학습 데이터를 필요로 하는 효율적인 상호참조 해결 모델을 제안한다. 제안 모델은 시브-가이드 자질 기반의 랜덤 포레스트를 사용하여 상호참조하는 멘션들을 구분한다. 야구 뉴스 기사를 이용한 실험에서 제안 모델은 다른 기계학습 모델보다 높은 0.6678의 CoNLL F1-점수를 보였다. Coreference resolution is to identify mentions in documents and is to group co-referred mentions in the documents. It is an essential step for natural language processing applications such as information extraction, event tracking, and question-answering. Recently, various coreference resolution models based on ML (machine learning) have been proposed, As well-known, these ML-based models need large training data that are manually annotated with coreferred mention tags. Unfortunately, we cannot find usable open data for learning ML-based models in Korean. Therefore, we propose an efficient coreference resolution model that needs less training data than other ML-based models. The proposed model identifies co-referred mentions using random forests based on sieve-guided features. In the experiments with baseball news articles, the proposed model showed a better CoNLL F1-score of 0.6678 than other ML-based models.

      • KCI등재

        어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델

        이현구(Hyeon-gu Lee),최맹식(Maengsik Choi),김학수(Harksoo Kim) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.6

        관계 추출은 질의응답 및 지식확장 등에 널리 사용될 수 있는 주요 정보추출 기술이다. 정보추출에 관한 기존 연구들은 관계 범주가 수동으로 부착된 대용량의 학습 데이터를 필요로 하는 지도 학습모델을 기반으로 이루어져 왔다. 최근에는 학습 데이터 구축을 위한 인간의 노력을 줄이기 위해 원거리감독법이 제안되었다. 그러나 원거리 감독법은 분류 문제를 해결하는데 필수적인 부정 학습 데이터를 수집하기 어렵다는 단점이 있다. 이러한 원거리 감독법의 단점을 극복하기 위해 본 논문에서는 부정 데이터없이 학습이 가능한 단일 클래스 분류 모델을 제안한다. 입력 데이터로부터 긍정 데이터를 선별하기 위해서 제안 모델은 벡터 공간 상에서 어휘 정보와 구문 패턴에 기반한 유사도 척도를 사용하여 입력 데이터가 내부 범주에 속하는지 그렇지 않은지 판단한다. 실험에서 제안 모델은 대표적인 단일 클래스 분류 모델인 One-class SVM보다 높은 성능(0.6509 F1-점수, 0.6833 정밀도)을 보였다. Relation extraction is an important information extraction technique that can be widely used in areas such as question-answering and knowledge population. Previous studies on relation extraction have been based on supervised machine learning models that need a large amount of training data manually annotated with relation categories. Recently, to reduce the manual annotation efforts for constructing training data, distant supervision methods have been proposed. However, these methods suffer from a drawback: it is difficult to use these methods for collecting negative training data that are necessary for resolving classification problems. To overcome this drawback, we propose a one-class classification model that can be trained without using negative data. The proposed model determines whether an input data item is included in an inner category by using a similarity measure based on lexical information and syntactic patterns in a vector space. In the experiments conducted in this study, the proposed model showed higher performance (an F1-score of 0.6509 and an accuracy of 0.6833) than a representative one-class classification model, one-class SVM(Support Vector Machine).

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼