http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
황이규,윤보현,Hwang, Yi-Gyu,Yun, Bo-Hyun 한국정보처리학회 2003 정보처리학회논문지B Vol.10 No.2
개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다. Named entity recognition is the process indispensable to question answering and information extraction systems. This paper presents an HMM based named entity (m) recognition method using the construction principles of compound words. In Korean, many named entities can be decomposed into more than one word. Moreover, there are contextual relationships among nouns in an NE, and among an NE and its surrounding words. In this paper, we classify words into a word as an NE in itself, a word in an NE, and/or a word adjacent to an n, and train an HMM based on NE-related word types and parts of speech. Proposed named entity recognition (NER) system uses trigram model of HMM for considering variable length of NEs. However, the trigram model of HMM has a serious data sparseness problem. In order to solve the problem, we use multi-level back-offs. Experimental results show that our NER system can achieve an F-measure of 87.6% in the economic articles.
형태소 및 구문 모호성 축소를 위한 구문단위 형태소의 이용
황이규(Yi-Gyu Hwang),이현영(Hyun-Young Lee),이용석(Yong-Seok Lee) 한국정보과학회 2000 정보과학회논문지 : 소프트웨어 및 응용 Vol.27 No.7
기존의 한국어 형태소 해석은 한국어의 교착어 특성상 다양한 형태론적 모호성을 가진다. 이러한 형태론적 모호성은 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스트리의 선택을 어렵게 한다. 한국어에서 이런 형태론적 모호성의 대부분이 보조용언이나 의존 명사와 관련이 있다. 보조용언이나 의존명사는 주위의 형태소들과 강한 결합 관계를 가지고 있으며, 대부분 자립성이 없는 기능형태소이다. 결합된 형태소들은 문장 내에서 하나의 기능적 역할이나 구문적 역할을 수행한다. 우리는 품사 태깅된 20 만 어절 크기의 말뭉치로부터 이 형태소열을 찾아 이를 3가지 유형으로 분류하였다. 그리고, 이를 구문 형태소로 정의하고 구문 형태소를 구문 분석의 기본 입력 단위로 간주하였다. 본 논문에서는 구문 형태소가 아래와 같은 문제의 해결에 있어서 효율적인 방법임을 제안한다: 1) 형태소 해석의 축소, 2) 구문 해석 도중 불필요한 부분 파스트리의 배제, 3) 구문 모호성의 축소. 마지막으로, 실험 결과를 통해 구문단위 형태소가 형태소 및 구문 모호성을 축소하기 위해 반드시 필요함을 보인다. The conventional morphological analysis of Korean language presents various morphological ambiguities because of its agglutinative nature. These ambiguities cause syntactic ambiguities and they make it difficult to select the correct parse tree. This problem is mainly related to the auxiliary predicate or bound noun in Korean. They have a strong relationship with the surrounding morphemes which are mostly functional morphemes that cannot stand alone. The combined morphemes have a syntactic or semantic role in the sentence. We extracted these morphemes from 0.2 million tagged words and classified these morphemes into three types. We call these morphemes a syntactic morpheme and regard them as an input unit of the syntactic analysis. This paper presents the syntactic morpheme is an efficient method for solving the following problems: 1) reduction of morphological ambiguities, 2) elimination of unnecessary partial parse trees during the parsing, and 3) reduction of syntactic ambiguity. Finally, the experimental results show that the syntactic morpheme is an essential unit for reducing morphological and syntactic ambiguity.
황이규(Yi-Gyu Hwang),송연정(Youn-Jeong Song),이현영(Hyun-Young Lee),이용석(Yong-Seok Lee) 한국정보과학회 1999 한국정보과학회 학술발표논문집 Vol.26 No.1B
최소의 의미를 가지는 형태소 단위로 분리된 형태소 해석 결과를 구문적 단위로 결합하는 구문 해석 방법론은 형태소 해석의 결과가 너무 많아 파싱 단계에 많은 부담이 되었다. 이는 형태소 해석의 역할과 구문 해석의 역할을 독립적인 관점에서 정의하였기 때문이다. 본 논문에서는 형태소 분석후 발생하는 많은 형태론적 모호성과 이로 인해 구문 분석에서 발생되는 구문 모호성을 해결하기 위해 구문적 단위의 형태소를 정의하고 이를 통해 문장을 분석함으로써 구문 분석의 효율성을 얻을 수 있는 방법을 제안한다. 이를 위해 본 논문에서는 1) 구문 단위 형태소의 정의, 2) 구문 형태소 생성기를 이용한 구문 단위 형태소의 자질화, 3) 품사 분류 표현의 재검토 및 이의 자질화를 이용하여 교착어가 가지는 구문 해석의 부담을 줄일 수 있는 구문해석 방법을 제시한다.
황이규(Yi-Gyu Hwang),양승원(Seung-Weon Yang),이용석(Yong-Seok Lee) 한국정보과학회 1994 한국정보과학회 학술발표논문집 Vol.21 No.2A
한 언어를 구문 분석하기 위해서는 해당 언어를 효과적인 방법으로 문법적 형태로 표현할 필요가 있다. 본 논문은 단일화 기반의 다양한 문법 형식을 표현할 수 있는 문법 기술도 구인 PATRII로 쓰여진 문법을 번역하여 함수의 형태를 가지는 문법 번역기를 구현한다. 본 문법 번역기는 단일화식을 미리 번역함으로써 파싱 실행시간의 향상을 기대할 수 있으며 파싱 메카니즘에 관계없이 이용될 수 있는 장점을 가지고 있다. 또한 한국어 구문 분석에 필요한 선택적 단일화를 수용할 수 있도록 문법 기술 도구를 확장한다.
문형을 제약 조건으로 하는 CFG기반의 한국어 구문분석
이현영(Hyeon-Yeong Lee),황이규(Yi-Gyu Hwang),배우정(Woo-Jeong Bae),이용석(Yong-Seok Lee) 한국정보과학회 1999 한국정보과학회 학술발표논문집 Vol.26 No.2Ⅱ
한국어는 용언이 의미적 제약을 통해 문장을 지배하는 SOV 구조의 언어이다. 또한, 조사나 어미와 같은 기능어의 발달은 물론 관형절을 내포하는 문장이 주류를 이룬다. 따라서 한국어의 구문분석은 부착에 따른 많은 구문 모호성이 발생하게 된다. 본 논문에서는 조건단일화 기반의 CFG 문법을 기술하고 문형을 구문 제약으로 하여 구문모호성을 해결하는 방안을 제시한다. 문형은 한국어의 특성을 용언의 하위범주화에 맞게 재분류한 문장의 구조적 유형을 말한다. 본 논문에서 제안하는 문형은 동사와 형용사를 구분하여 39가지로 설정하였다. 이런 문형 정보를 이용하여 관형형 어미를 갖는 용언이 최대의 정보를 가지도록 함으로써 관형절에서 발생하는 부사 및 체언구 부착의 문제가 해결된다. 또한 문형은 이중주어나 이중 목적어 문장을 처리할 수가 있어 한국어에서 발생하는 많은 구문모호성을 해결할 수 있다.
허정(Jeong Heo),황이규(Yi-Gyu Hwang),최미란(Mi-Ran Choi),장명길(Myung-Gil Jang) 한국정보과학회 언어공학연구회 2004 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.16 No.1
AnyQuestion 1.0은 ㈜두산의 ‘두산세계대백과 엔싸이버’의 인물분야만을 대상으로 한 질의응답형 정보검색 시스템이다. 본 시스템에서는 지식기반 질의응답, Logical Form 기반 질의응답, 단락 기반 질의응답을 통합한 3단계 정답 추출 방법을 제안하고 있다. 지식기반 질의응답은 본문의 구조화된 정보와 비구조화된 정보로부터 정보추출 기술을 이용하여 구축한 지식베이스에 대한 질의응답을 목적으로 한다. “사용자의 질문에 대한 정답을 지식베이스에서 제시할 수 있는가?”와 “지식베이스에서 어떤 정보를 정답으로 제시해야 하는가?”는 3단계 정답 추출 방법에서는 상당히 중요하다. 이를 위해서 질문 분석에서는 수동으로 구축한 지식베이스 속성 자질 정보와 다양한 규칙을 기반으로 질문 분석을 수행하였고, 이를 이용하여 지식기반 질의응답을 하였다. 실험결과, 지식기반 질의응답 할당 재현율은 65.4%, 지식기반 질의응답의 정확률은 81.25%였다. 백과사전 인물분야에 대한 지식기반 질의응답은 기존의 데이터베이스 분야에서 연구되어온 자연어 DB 인터페이스를 활용한 질의응답으로 속도가 빠르며, 상대적으로 높은 정확률을 보였다.
Conditional Random Fields를 이용한 세부 분류 개체명 인식
이창기(Changki Lee),황이규(Yi-Gyu Hwang),오효정(Hyo-Jung Oh),임수종(Soojong Lim),허정(Jeong Heo),이충희(Chung-Hee Lee),김현진(Hyeon-Jin Kim),왕지현(Ji-Hyun Wang),장명길(Myung-Gil Jang) 한국정보과학회 언어공학연구회 2006 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2006 No.10
질의응답 시스템은 사용자 질의에 해당하는 정답을 찾기 위해서 세부 분류된 개체명을 사용한다. 이러한 세부 분류 개체명 인식을 위해서 대부분의 시스템이 일반 대분류 개체명인식 후에 사전 등을 이용하여 세부 분류로 나누는 방법을 이용하고 있다. 본 논문에서는 질의응답 시스템을 위한 세부 분류 개체명 인식을 위해서 Conditional Random Fields를 이용한다. 개체명 인식의 과정을 개체명 경계 인식과 경계가 인식된 개체명의 클래스 분류의 두 단계로 나누어, 개체명 경계 인색에 Conditional Random Fields를 이용하고, 경계 인식된 개체명의 클래스 분류에는 Maximum Entropy를 이용한다. 실험결과 147개의 세부분류 개체명 인식에 대해서 정확도 85.8%, 재현률 81.1%, F1=83.4의 성능을 얻었고, baseline model 보다 학습 시간이 27%로 줄고 성능은 증가하였다. 또한 제안된 세부 분류 개체명 인식기를 이용하여 질의응답 시스템에 적용한 결과 26%의 성능향상을 보였다.