http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
임수종(Soojong Lim),정의석(Euisok Chung),왕지현(JiHyun Wang),임명은(Myung-Eun Lim),윤보현(Bo-Hyun Yun) 한국정보과학회 2001 한국정보과학회 학술발표논문집 Vol.28 No.1B
연속적인 절차를 필요로 하는 영역에서 사용자는 단계마다 검색과 정보 획득과정을 반복적으로 수행해야만 한다. 현재 인터넷으로 수행 가능한 영역의 절차에 대해서 검색과 확인 과정을 거치지 않고 시스템과 대화를 통해서 원하는 절차를 한번에 생성해주는 시스템을 개발하기 위해서는 이러한 개념을 수용해 줄 수 있는 지식 베이스 구축이 필요하다. 본 연구에서는 적용하려는 절차의 특성에 따라 대화 모델에서 의도 파악을 위한 Plan-based 기술을 적용할 수 있는 Goal Level과 사용자의 제약 조건을 파악하기 위해 Frame-based 기술을 적용할 수 있는 Constraint level의 2단계 구조를 갖는 지식 베이스 구조를 제안한다.
임수종(Soojong Lim),배용진(Yongjin Bae),김현기(Hyunki Kim),나동렬(Dongyul Ra) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.4
높은 성능의 의미역 인식 시스템의 개발을 위해서는 대상 도메인에 대한 대량의 수동 태깅 학습 데이터가 필요하다. 그러나 충분한 크기의 의미역 인식용 학습 데이터는 오직 소수의 도메인에서만 존재한다. 소스 도메인의 시스템을 상대적으로 매우 작은 학습 데이터를 가진 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 이러한 도메인 변경에서의 성능 하락 현상을 최소화하기 위해 본 논문에서는 2 가지 기법을 제시한다. 첫째, 도메인 적응 방법론의 하나인 Prior 모델에 기반하여 개발된 한국어 의미역 인식 시스템을 위한 도메인 적응 알고리즘을 제안한다. 둘째, 크기가 작은 타겟 도메인 데이터를 이용할 때 데이터 희귀 문제의 감소를 위해 소스 도메인 데이터 이용시 보다 단순화된 형태소 태그와 구문 태그 자질을 사용할 것을 제안한다. 뉴스 도메인에서 개발된 시스템의 위키피디아 도메인에의 적용과 관련하여 다른 연구의 도메인 적응 기술과 우리가 제안한 방법을 비교 실험하였다. 우리의 두 가지 방법을 같이 사용할 때 더 높은 성능을 달성하는 것을 관찰하였다. 우리 시스템은 F1-score 64.3% 성능으로서 기존의 다른 도메인 적응 기술들과 비교하여 2.4~3.1% 더 높은 성능을 가지는 것으로 관찰되었다. Developing a high-performance Semantic Role Labeling (SRL) system for a domain requires manually annotated training data of large size in the same domain. However, such SRL training data of sufficient size is available only for a few domains. Performances of Korean SRL are degraded by almost 15% or more, when it is directly applied to another domain with relatively small training data. This paper proposes two techniques to minimize performance degradation in the domain transfer. First, a domain adaptation algorithm for Korean SRL is proposed which is based on the prior model that is one of domain adaptation paradigms. Secondly, we proposed to use simplified features related to morphological and syntactic tags, when using small-sized target domain data to suppress the problem of data sparseness. Other domain adaptation techniques were experimentally compared to our techniques in this paper, where news and Wikipedia were used as the sources and target domains, respectively. It was observed that the highest performance is achieved when our two techniques were applied together. In our system"s performance, F1 score of 64.3% was considered to be 2.4~3.1% higher than the methods from other research.
임수종(Soojong Lim),이창기(Changi Lee),장명길(Myun-Gil Jang) 한국정보과학회 2005 한국정보과학회 학술발표논문집 Vol.32 No.1
본 연구는 신문기사나 백과사전 등의 문서에서 빈번히 발생하는 동사 파생 접미사와 어미가 생략된 형태의 서술성 명사를 동사로 복원하는 방법에 대한 것으로 이러한 복원은 문장구조 분석에 영향을 미친다. 기존 연구는 간단한 규칙만을 사용하지만 규칙을 사용하는 방법은 재현률에서 성능 저하를 보이기 때문에 본 연구에서는 이러한 생략 형태를 구분하여 규칙과 통계 방법을 사용하여 각각 적합한 형태에 적용하였다. 본 연구의 접근 방법은 규칙 기반에 비해 약 30%, 통계 기반에 비해 약 8%의 성능 향상을 보여서 문장 구조 분석에서는 3.6%의 성능 향상을 보였다.
의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식
임수종(Soojong Lim),임준호(Joon-Ho Lim),이충희(Chung-Hee Lee),김현기(Hyun-Ki Kim) 한국정보과학회 2016 정보과학회논문지 Vol.43 No.7
기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank 는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다. Semantic information and features are very important for Semantic Role Labeling(SRL) though many SRL systems based on machine learning mainly adopt lexical and syntactic features. Previous SRL research based on semantic information is very few because using semantic information is very restricted. We proposed the SRL system which adopts semantic information, such as named entity, word sense disambiguation, filtering adjunct role based on sense, synonym cluster, frame extension based on synonym dictionary and joint rule of syntactic-semantic information, and modified verb-specific numbered roles, etc. According to our experimentations, the proposed present method outperforms those of lexical-syntactic based research works by about 3.77 (Korean Propbank) to 8.05 (Exobrain Corpus) F1-scores.
임수종(Lim Soojong),정의석(Jung euisuk),장명길(Jang Myoung Gil) 한국정보과학회 언어공학연구회 2004 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.16 No.1
백과사전에서 정답을 찾기 위한 정보 중의 하나로 구조분석 정보를 이용하기 위하여 의존 관계 분석을 통해 정확한 구조분석에 대한 연구를 하였다. 정답을 찾기 위한 대상이 되는 용언과 논항의 관계를 파악하기 위해 먼저 의존관계 분석의 모호성 정도를 줄이기 위해 문장을 구묶음으로 나누었고 나눠진 구묶음에서 중심어와 중심어에 해당하는 의미코드를 추출하였다. 이렇게 구분된 구묶음 간의 의존관계를 파악하기 위하여 주로 격틀과 의미코드에 의존하는 의미자질, 거리 자질, 격관계 자질, 절형태 자질을 이용하여 의존관계 모호성을 해소하였다. 백과사전의 특성상 생략되는 성분과 연속 동사 처리를 하여 보다 정확하게 백과사전 QA시스템에서 정답을 찾을 수 있는 정보를 제공하도록 하였다. 실험결과 동사구와 명사구의 의존관계는 89.43의 성능을 보였고 의존관계에 격을 부여한 경우는 78.40%의 정확율, 백과사전 후처리에 해당하는 복원은 68.23의 성능을 보인다.