본 연구는 언어학적 연구를 기반으로 하여 텍스트 자동요약을 위한 맥락탐색 시스템을 연구하여 효과적인 자동 요약기 개발에 필요한 기초적인 작업과 토대를 마련하는 데 있다. 맥락탐색 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=G3752762
-
2006년
Korean
한국연구재단(NRF)
0
상세조회0
다운로드본 연구는 언어학적 연구를 기반으로 하여 텍스트 자동요약을 위한 맥락탐색 시스템을 연구하여 효과적인 자동 요약기 개발에 필요한 기초적인 작업과 토대를 마련하는 데 있다. 맥락탐색 ...
본 연구는 언어학적 연구를 기반으로 하여 텍스트 자동요약을 위한 맥락탐색 시스템을 연구하여 효과적인 자동 요약기 개발에 필요한 기초적인 작업과 토대를 마련하는 데 있다. 맥락탐색 시스템이란 프랑스 파리 소르본느 대학의 LaLICC연구팀이 연구 개발, 발전시키고 있는 추출요약 시스템이다. 맥락 탐색 기법은 텍스트가 담고 있는 다양하고 이질적인 언어적 층위를 고려하여 형식적인 언어 지표들과 표지들을 찾고, 이를 위해 보다 많은 의미적 요소들을 시스템 내에 도입하여, 텍스트의 정보 여과를 극대화한다는데 초점을 두고 있다. 텍스트를 이루는 언어 자원은 저자의 화용론적 의도가 무엇인지 보여주는 명시적인 담화 표지들 (형태소, 낱말, 표현, 성구 등)로 구성되었는데 맥락 탐색 시스템은 이러한 저자의 의도를 의미적으로 포착하고 맥락에 따라 해석할 수 있는 시스템을 제안하고 있다. 따라서, 본 연구의 일차적인 목적은 이 모델의 가정을 받아 들여, 한국어와 프랑스어 텍스트에 대한 체계적인 검토 작업을 통해 언어 지표들과 표지들 그리고 이들을 결합하는 규칙들을 축적하고, 심층적인 분석을 통해 텍스트의 규칙성을 포착해 내는 것이었다. 따라서, 본 연구팀은 이러한 가정하에 다양한 분야에서 쓰여진 다양한 텍스트 구조를 가진 자료들을 분석하고 일괄적으로 나타나는 명시적인 담화 지표들을 분석해 맥락 탐색 시스템의 규칙으로 재정리하였다. 특히, 본 연구팀이 2차년도 연구의 분석 대상으로 삼은 판례문은 아주 독창적인 텍스트 구조를 가지고 있어 텍스트 언어학적 연구가치가 높을 뿐만아니라 실질적인 자동 요약기 활용의 측면에서 많은 가능성을 가진 분야로서 기대되었다. 또한, 본 연구팀은 LaLICC연구팀과의 공동 작업으로 이 연구팀에서 개발하고 있는 다국어 자동 주석기, EXCOM (Exploration Contextuelle Multilingue)의 한국어 적용을 시도하였다. 이를 위해 동일한 텍스트를 각각 프랑스어와 한국어로 번역하여 명시적 담화 표지를 찾아 맥락탐색규칙으로 구축한 후 EXCOM을 통해 자동 요약을 실행하여 긍정적인 결과를 얻었다. 물론, 한국어의 형태 통사론적인 분석기의 부재등이 문제점으로 제안되었지만, 이러한 연구로 프랑스어 텍스트 뿐만아니라 한국어 텍스트을 위한 자동 요약기의 기술적인 실현에 아주 긍정적인 연구 결과를 보여 주었다는데 의의가 있었다.
다국어 초록 (Multilingual Abstract)
Notre travail s'inscrit dans une etude generale pour un modele conceptuel du resume automatique d'informations dans des textes : Exploration Contextuelle. C'est un system de gestion de connaissances linguistiques orientees vers le filtrage semantique ...
Notre travail s'inscrit dans une etude generale pour un modele conceptuel du resume automatique d'informations dans des textes : Exploration Contextuelle. C'est un system de gestion de connaissances linguistiques orientees vers le filtrage semantique de textes. Il permet d'apprehender des categories grammaticales, semantiques et discursives qui deviennent necessaires pour entreprendre une veritable linguistique textuelle informatisee. Ce modele conceptuel permet d'aboutir a organiser des classes de marqueurs d'operations linguistiques et des classes d'indices linguistiques contextuels qui contribuent ainsi a faire prendre, a un systeme informatique, des decisions pour lever l'indetermination semantique d'une unite inguistique. Aussi, il est utilise pour attribuer automatiquement une annotation (grammaticale, semantique ou discursive) a un segment textuel (proposition, phrase, paragraphe, meta-donnees d'un texte..), en vue de l'extraire (par exemple, le resume automatique) ou de le stocker, avec son annotation, dans une base exploitable dans une recherche ulterieure. Ce dernier est mise en oeuvre en systeme d'exploration contextuelle multilingue, nomme EXCOM en collaboration avec l'equipe Lalicc, un laboratoire de linguistique informatique a l'Universite de Paris-Sorbonne, en France.
Notre objectif etait, d'abord, d'examiner, par ce modele adopte la possibilite de developper et d'exploiter des ressources linguistiques pour identifier dans les textes francais et coreens, certaines des relations organisatrices des connaissances ainsi que les organisations discursives mises en places par l'auteur. Pour cela, toutes nos etudes ont fait appel a la meme methodologie ou linguistique textuelle et techniques informatiques sont convoquees :
1) recherche de marqueurs qui correspondent a un point de vue de fouille dans des premiers corpus ; 2) classement des indices contextuels en indices declencheurs et complementaires ; 3) ecriture des regles d'exploration contextuelle ; 4) formulation de ces regles dans le formatage informatique choisi ; 5) experimentation et validation sur des corpus plus etendus et diversifies.
A ce stade, nos recherches sont mene d'abord a etudier systematiquement un corpus de textes pour y rechercher des regularites lexicales et discursives dont l'emploi est representatif de la categorie semantique consideree. Les etudes portent sur des corpus plus etendus et diversifies possibles, des articles scientifiques aux textes juridiques de type juriprudence d'une certaine caractere particuliere. Ce travail est mise en etat de validation par des textes varies en coreen, et aussi par d'autres langues, notemment des textes francais. Ce qui nous permettra d'ecrire des regles d'exploration contextuelle plus precises et d'enrichir la base de donnees des marqueurs linguistiques.
Ensuite, comme notre travail vise pour un certain nombre de taches, d'une approche multilingue par un transfert et ajustement des classes de marqueurs deja rassembles et organises dans une langue avec les problemes qui y afferent (lies a Unicode, par exemple). Nous avons construit des regles d'exploration contextuelle du meme texte traduit en deux langues en collaboration avec l'equipe de Lalicc. Ce travail est mene d'une part a accroitre des bases de regles d'exploration contextuelle pour chaque langue, d'autre part a ameliorer cet outil d'EXCOM plus approprie aux traitements automatiques des textes coreens. Cela nous permettra par consquent d'effectuer les testes et les evaluations des resultats du systeme. Nous etudions la possibilite d'integrer dans ce systeme un analyseur morpo-syntaxique du coreen pour la segmentation textuelle de base ou un dictionnaire permettant la desambiguisation des differentes formes des marqueurs linguistiques utilises dans le systeme d'exploration contextuelle.