본 연구에서는 기계학습을 이용하여 한국어 기본구(base phrase)인식의 성능을 향상시키고자 할 때, 학습집합으로부터 획득 가능한 자질집합들 중 최적의 자질집합이 무엇이며, 자료부족 문제...
본 연구에서는 기계학습을 이용하여 한국어 기본구(base phrase)인식의 성능을 향상시키고자 할 때, 학습집합으로부터 획득 가능한 자질집합들 중 최적의 자질집합이 무엇이며, 자료부족 문제를 어떻게 완화할 것인가에 대해 논한다. 먼저 최적의 자질집합 선택은 "점증적 유용성"이란 관점에서 자질의 적합성을 정의하고 이러한 정의에 따라 자질집합을 선택한다. 그리고, 자료부족 문제 완화의 해결점을 찾기 위해 한국어의 통사적 특성을 고려한 형태소 품사체계 사용 및 선택적 어휘자질의 사용이 성능에 미치는 영향을 분석하고 결과를 제시한다.다양한 크기의 문맥 및 속성, 품사체계에 따라 자질 집합을 구성하고, 서로 다른 특성을 갖는 학습기법인 결정트리와 메모리기반 학습기법을 적용한 결과, 한국어 기본구 인식에 유용한 자질은 품사, 어휘, 그리고 기본구 태그로, 두 학습 알고리즘 모두 동일하였다. 또한 한국어의 특성을 고려한 일반화된 품사체계 및 선택적 어휘자질의 사용이 자료부족 문제를 완화시켜주면서 안정된 성능을 보여주었다. 선택된 최적의 자질집합을 사용하여 결정트리와 메모리 기반 학습을 수행한 결과, 전체 기본구에 대해 각각 93.39%/ 93.41%, 90.99%/92.52%의 정확률/재현율을 얻었다.