http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
[우수논문] 술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출
정창후(Chang-Hoo Jeong),최성필(Sung-Pil Choi),전홍우(Hong-Woo Chun),홍순찬(Soon-Chan Hong),정한민(Hanmin Jung) 한국정보과학회 2012 한국정보과학회 학술발표논문집 Vol.39 No.1B
문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.
술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출
정창후(Chang-Hoo Jeong),전홍우(Hong-Woo Chun),송사광(Sa-Kwang Song),홍순찬(Soon-Chan Hong),정한민(Hanmin Jung),최성필(Sung-Pil Choi) 한국정보과학회 2012 정보과학회논문지 : 소프트웨어 및 응용 Vol.39 No.12
문서 내에 존재하는 핵심개체들 간의 다양한 상호작용을 정확하게 파악하고 활용하기 위해서는 관계 추출 기술이 필수적이다. 스트링 커널을 이용한 관계 추출은 커널의 입력으로 사용되는 스트링을 효과적으로 구성하는 것이 커널 계산 속도나 정확성 측면에서 중요한 요소임에도 불구하고 기존 연구에서는 입력 스트링을 효과적으로 구성하지 못했다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 방법을 제안한다. 술어-논항 구조 패턴은 문장을 구성하는 모든 단어에 대한 술어-논항 관계 그래프에서 중요하게 지정된 두 개체를 연결하는 최소집합의 술어-논항으로 구성된 순서 열로서, 문장 내에서 상호작용하는 두 개체 간의 연관관계를 표현해주는 중요한 단서 정보가 된다. 제안된 시스템의 평가를 위해서 과학기술문헌에 존재하는 핵심개체들 간의 연관관계 추출 성능을 평가하는 테스트컬렉션을 구축하여 실험을 진행하였다. 정확도 측정 결과, 스트링커널의 입력으로 문장 전체를 사용한 경우에는 55.07%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.04%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다. The relation extraction is one of the most essential parts in text mining in order to capture various detailed interactions between entities found in documents. The previous research has not shown good results on how to effectively construct the input string of the kernel. Actually, it is very important in terms of efficiency and effectiveness of kernel computation. Therefore, we propose a string-kernel method which normalizes the syntactic pattern strings consisting of predicate-argument structures (PAS) existing between a pair of entities in a sentence. The pattern string is the minimumlength sequence of PASs out of all kinds of possible sequences for any pair of words in a sentence, which is a very important clue revealing the interconnection between two entities in a sentence. The proposed method has been implemented and performed experiments to prove its usefulness upon our own test collection designed for verifying the relationship between the entities in documents. The experiments shows that the proposed methods performed the best since its accuracy reaches 69.14% whereas 55.07% and 61.04% are the results of the other two comparison settings: one uses entire strings as the input for the kernel, the other receives all strings between two target entities. Consequently, we proved that the better performance could be obtained from the proposed string-kernel based method, which extracts the normalized lexical pattern consisting of predicate-argument structure in a sentence and then applies it to the string kernel method.
최성필(Sung-Pil Choi),최윤수(Yoon-Soo Choi),전홍우(Hong-Woo Chun),정창후(Chang-Hoo Jeong),송사광(Sa-kwang Song),정한민(Hanmin Jung) 한국정보과학회 2012 한국정보과학회 학술발표논문집 Vol.39 No.1B
본 논문은 과학 기술 분야 학술 정보에 내재된 기술 지식을 효과적으로 추출하기 위한 시스템인 SINDIWALKS를 소개한다. 이 시스템은 학술 정보에 자주 등장하며 내용 전개에 핵심적인 역할을 수행하는 PLOT, 즉 인명, 지명, 기관명, 그리고 기술용어를 자동으로 인식하고 이들 간의 의미적 연관 관계를 추출할 수 있는 통합 지원 도구이다. 논문에서 소개하는 다양한 지원 도구들을 바탕으로 기술 지식추출의 성능을 특정 분야 혹은 자원에 최적화할 수 있는 기반을 마련할 수 있다.