http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
평면적 어휘 자질들을 활용한 확장 혼합 커널 기반 관계 추출
최성필(Sung-Pil Choi),정창후(Chang-Hoo Jeong),최윤수(Yun-Soo Choi),맹성현(Sung-Hyon Myaeng) 한국정보과학회 2009 정보과학회논문지 : 소프트웨어 및 응용 Vol.36 No.8
본 논문에서는 기존의 관계 추출 성능을 향상시키기 위해서 기존의 자질 기반 방법에서 추구하였던 개체 주변 문맥 다양성 정보의 추출 및 적용과 커널 기반 방법의 강점인 관계 인스턴스에 대한 구문 구조적 자질 정보의 통합 활용을 통한 확장된 혼합 커널을 제안한다. ACE RDC 코퍼스1)를 활용한 실험에서, 기존의 합성곱 구문 트리 커널 기반 혼합 커널을 기반으로 총 9 종류의 평면적 어휘 자질 집합을 정의하고 이를 적용함으로써 성능 향상에 기여하는 어휘 자질 유형을 파악할 수 있었으며, 적은 규모의 학습 집합으로도 현재 최고 수준의 성능에 필적하는 결과를 얻을 수 있었다. 결론적으로 관계 추출을 위한 세 가지 핵심 정보, 즉 개체 자질, 구문 구조적 자질, 주변 문맥 어휘 자질을 통합 적용하면 관계 추출의 성능을 향상시킬 수 있음을 알 수 있었다. In order to improve the performance of the existing relation extraction approaches, we propose a method for combining two pivotal concepts which play an important role in classifying semantic relationships between entities in text. Having built a composite kernel-based relation extraction system, which incorporates both entity features and syntactic structured information of relation instances, we define nine classes of lexical features and synthetically apply them to the system. Evaluation on the ACE RDC corpus shows that our approach boosts the effectiveness of the existing composite kernels in relation extraction. It also confirms that by integrating the three important features (entity features, syntactic structures and contextual lexical features), we can improve the performance of a relation extraction process.
혼합 커널을 활용한 과학기술분야 용어간 관계 추출 (pp.988-992)
최성필(Sung-Pil Choi),최윤수(Yun-Soo Choi),정창후(Chang-Hoo Jeong),맹성현(Sung-Hyon Myaeng) 한국정보과학회 2009 정보과학회 컴퓨팅의 실제 논문지 Vol.15 No.12
본 논문에서는 합성곱 구문 트리 커널(convolution parse tree kernel)과, 한 문장에서 나타나는 두 개체 간의 관계를 가장 잘 설명하는 동사 상당어구에 대한 개념화를 통해 생성되는 워드넷 신셋 벡터(WordNet synsets vector) 커널을 활용하여 과학기술분야 전문용어 간의 관계 추출을 시도하였다. 본 논문에서 적용한 모델의 성능평가를 위해서 세 가지 검증 컬렉션을 활용하였으며, 각각의 컬렉션 마다 기존의 접근 방법론 보다 우수한 성능을 보여주었다. 특히 KREC 2008 컬렉션을 대상으로 한 성능실험에서는, 기존의 합성곱 구문 트리 커널과 동사 신셋 벡터(verb synsets vector)를 함께 적용한 합성 커널이 비교적 높은 성능 향상(8% F1)을 나타내고 있다. 이는 성능을 높이기 위해서 관계 추출에서 많이 활용하였던 개체 자질 정보와 더불어 개체 주변에 존재하는 주변 문맥 정보(동사 및 동사 상당어구)도 매우 유용한 정보임을 입증하고 있다. In this paper, we attempted to extract binary relations between terminologies using composite kernels consisting of convolution parse tree kernels and WordNet verb synset vector kernels which explain the semantic relationships between two entities in a sentence. In order to evaluate the performance of our system, we used three domain specific test collections. The experimental results demonstrate the superiority of our system in all the targeted collection. Especially, the increase in the effectiveness on KREC 2008, 8% in F1, shows that the core contexts around the entities play an important role in boosting the entire performance of relation extraction.
구문 트리 가지치기 및 소멸 인자 조정을 통한 트리 커널 기반 단백질 간 상호작용 추출 성능 향상
최성필(Sung-Pil Choi),최윤수(Yun-Soo Choi),정창후(Chang-Hoo Jeong),맹성현(Sung-Hyon Myaeng) 한국정보과학회 2010 정보과학회논문지 : 소프트웨어 및 응용 Vol.37 No.2
본 논문에서는 기존의 연구에서 시도되었던 것과는 달리, 복잡하고 추출하기가 어려운 다양한 형태의 자질 및 단서 정보가 필요 없는 합성곱 구문 트리 커널 기반의 단백질 간 상호작용 추출 기법을 소개한다. 이 기법의 특징은 단백질 이름 쌍을 포함한 상호작용 포함 후보 문장에 대한 구문 트리만을 이용하여 추출을 시도한다는 것이며 부가적인 자질이나 커널 함수가 불필요하다는 장점이 있다. 이를 기반으로 본 논문의 연구 성과는 다음과 같다. 첫째, 단백질 간 상호작용 추출에 있어서 구문 트리 커널을 적용할 경우 불필요한 문맥 정보를 효과적으로 제거하는 구문 트리 가지치기 작업이 필수적임을 기존 연구 결과와의 성능 비교로써 증명한다. 둘째, 동일한 학습 조건에서 구문 트리 커널의 소멸 인자(decay factor)는 평활인자(smoothing factor)로서 중요한 역할을 하며, 성능 변화의 핵심 요소임을 보인다. 특히 학습 집합의 규모에 따라서 소멸인자가 성능에 미치는 영향력이 상이한 패턴으로 나타남을 제시하였다. 결론적으로 기존의 최신 연구결과로서 주장한 “단일 커널보다 혼합 커널의 성능이 더 뛰어나다”라는 가설이 항상 성립하는 것은 아니라는 것을 합성곱 구문 트리 커널 단독으로 적용하여 높은 성능을 나타냄으로써 보여주었다. 동일한 조건으로 수행한 실험에서 기존의 두 연구 결과에 비해 19.8%, 14%의 성능 개선을 나타내었다. This paper introduces a novel way to leverage convolution parse tree kernel to extract the interaction information between two proteins in a sentence without multiple features, clues and complicated kernels. Our approach needs only the parse tree alone of a candidate sentence including pairs of protein names which is potential to have interaction information. The main contribution of this paper is two folds. First, we show that for the PPI, it is imperative to execute parse tree pruning removing unnecessary context information in deciding whether the current sentence imposes interaction information between proteins by comparing with the latest existing approaches' performance. Secondly, this paper presents that tree kernel decay factor can play an pivotal role in improving the extraction performance with the identical learning conditions. Consequently, we could witness that it is not always the case that multiple kernels with multiple parsers perform better than each kernels alone for PPI extraction, which has been argued in the previous research by presenting our outperformed experimental results compared to the two existing methods by 19.8% and 14% respectively.
술어-논항 튜플 기반 근사 정렬을 이용한 문장 단위 바꿔쓰기표현 유형 및 오류 분석
최성필,송사광,맹성현,Choi, Sung-Pil,Song, Sa-Kwang,Myaeng, Sung-Hyon 한국정보처리학회 2012 정보처리학회논문지B Vol.19 No.2
본 논문에서는 Predicate-Argument Tuple (PAT)를 기반으로 텍스트 간 심층적 근사 정렬(Approximate Alignment)을 통한 문장 단위 바꿔쓰기표현(sentential paraphrase) 식별 모델을 제안한다. 두 문장 간의 PAT 기반 근사 정렬 결과를 바탕으로, 두 문장의 의미적 연관성을 효과적으로 표현하는 다양한 정렬 자질(alignment feature)들을 정의함으로써, 바꿔쓰기표현 식별 문제를 지도 학습(supervised learning) 기반의 자동 분류 모델로 접근하였다. 실험을 통해서 제안 모델의 가능성을 확인할 수 있었으며, 시스템의 오류 분석을 통해 제안 방법이 아직 해결하지 못하는 다양한 바꿔쓰기표현 유형들을 식별함으로써 향후 시스템의 성능 개선 방향을 도출하였다. This paper proposes a model for recognizing sentential paraphrases through Predicate-Argument Tuple (PAT)-based approximate alignment between two texts. We cast the paraphrase recognition problem as a binary classification by defining and applying various alignment features which could effectively express the semantic relatedness between two sentences. Experiment confirmed the potential of our approach and error analysis revealed various paraphrase patterns not being solved by our system, which can help us devise methods for further performance improvement.