http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
민경구(Kyungkoo Min),선충녕(Choong-Nyoung Sun),서정연(Jungyun Seo) 한국정보과학회 2005 한국정보과학회 학술발표논문집 Vol.32 No.1
인터넷의 발달로 전자문서가 증가함에 따라, 정보추출기술의 중요성도 함께 증가하게 되었다. 정보추출 (IE)은 다양한 형태의 문서로부터 필요한 내용만을 추출하여 정형화된 형태로 저장하는 문서 처리기술이다. SIES (Sogang Information Extraction System)는 기계학습 방법과 고정밀의 수동작성 된 규칙기반의 방법론을 함께 사용하는 정보 추출시스템으로 문법에 맞지 않는 문장 등의 입력에 대해 견고한 문장분석을 위해 Lexico-Semantic Patter (LSP)과 개체명 사전(Named Entity Dictionary)를 사용하였으며, SIES의 기계학습의 성능향상을 위해 기존에 널리 사용되는 문맥정보 외에 후보단어들의 위치정보를 고려한 특성자질과 스코어링 방법을 사용하였다.
선충녕(Choong-Nyoung Seon),민경구(Kyungkoo Min),서정연(Jungyun Seo) 한국정보과학회 2005 한국정보과학회 학술발표논문집 Vol.32 No.1
인터넷의 확장에 따라 형태소 분석기에서 사용하는 사전의 규모도 커지고 있다. 이러한 상황은 사전의 증가를 가져옴으로써 기존 형태소 분석기의 자료 구조에 대한 새로운 요구를 발생시켰다. 기존의 트라이를 이용한 방법은 노드의 과다 생성과 데이터 부족문제로 발생하는 메모리 낭비의 문제를 가지고 있다. 효율적인 메모리 사용을 위해서는 해시 구조가 적절하다. 하지만 이 경우 트라이에 비해 검색 횟수의 복잡도가 비약적으로 증가되는 문제점을 안고 있다. 본 논문에서는 해시를 위한 길이 비트맵을 이용하여 검색 횟수를 제한할 수 있는 방법을 제안하였다. 실험을 통해 제안된 자료 구조와 해시와 트라이의 형태소 사전 검색 횟수를 비교하였으며, 비문 사용이 많은 영역에서 효율적임을 입증하였다.
정한민(Hanmin Jung),민경구(Kyungkoo Min),성원경(Won-Kyung Sung),박동인(Dong-In Park) 한국정보과학회 언어공학연구회 2004 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.16 No.1
본 논문에서는 네비게이션 도메인 상에서의 자연어 질의를 분석하기 위한 방법으로 정보추출을 이용한다. 목적 지향성 대화문을 처리하기 위해 도입한 정보추출은 미리 정의된 필드들의 값을 채우는 방식으로 대화를 이끌 수 있도록 한다. Lexica-semantic pattern 기반의 언어처리와 추출/필터링/랭킹 규칙들을 사용하여 강건하면서도 애매성 처리가 용이한 정보추출 기법을 이용한다. 네비게이션 도메인 상에서의 실험은 목적지까지의 이동을 위한 사용자와의 대화집합 256개에 대해 문장레벨 97%의 정확율을 보여준다.