RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 尤庵 宋時烈의 碑誌文 硏究

        박관규 高麗大學校 大學院 2011 국내박사

        RANK : 248685

        본 論文은 557편에 달하는 尤庵 宋時烈(1607-1689)의 碑誌에 초점을 맞추어 尤庵 碑誌의 主人公인 墓主의 性向과 主題의 主要 領域 및 時代的 位相을 종합적으로 고찰함으로써 尤庵 碑誌의 具體的 面貌를 파악하였다. 그 결과 17世紀 朝鮮의 知性界에서 碑誌의 制作이 전대에 비하여 활성화되게 된 文化的 實狀과 原因, 特徵의 實態를 감지할 수 있었다. 尤庵은 17世紀 朝鮮 性理學의 수준을 대변하는 巨儒이자 山林으로서 그 학문적 位相과 정치적 지위가 뚜렷하다. 그는 文章에만 치력한 文士가 아니었다. 그러나, 평생 동안 講學과 作文 活動을 왕성하게 전개하여 그의 문집 󰡔宋子大全󰡕에는 그 누구보다도 한문학의 제 문체가 풍부하고 충실하게 수록되어 있다. 그 중에서 551 편에 달하는 碑誌는 그 양적 부분이 매우 압도적이다. 특히 우암의 碑誌文은 淸陰 金尙憲(1570∼1652)과 谿谷 張維(1587∼1638)의 계보를 이어받아 당대에 일가를 이루었는데, 그의 필력은 웅혼하였고 韓愈와 歐陽脩의 영향 하에 주자의 문체를 參用한 것으로 평가되었다. 尤庵 硏究는 朝鮮 後期를 이해하는 關鍵, 혹은 關門이라는 전제 하에 현재까지 철학과 사학 분야에서 연구가 꾸준하게 진행되어 왔으며 2007년 ‘우암 탄신 400주년’을 전후하여 학술 발표와 토론회가 개최되는 가운데 우암에 대한 여러 방면의 학술적 관심이 고조된 바 있다. 그러나 우암에 대한 기존의 연구는 17세기 이후 조선의 지식인 사회에서 차지하는 위상을 전제로 하여 우암에 대한 인식이 긍정적이거나 혹은 부정적인 것으로 양 극단에 치우쳐 그 실상에 대한 객관적 평가가 부족한 실정이다. 우암에 대한 褒貶은 주로 그의 정치적 처신과 행적에 대한 후인들의 이해에서 크게 벗어나지 않았으며 객관적이며 심도 있는 접근 방식과 연구 결과는 현재 미진하다. 본 논문은 기존의 우암 연구에 있어서 제한적인 시각의 범위를 확장하기 위한 일환으로 작성되었다. 일단 우암의 저작 가운데 주요한 부분을 차지하고 있는 550여 편에 달하는 尤庵의 碑誌를 연구 대상으로 삼아 우암 비지가 획득한 존재의 실태와 문학적 수준, 시대적 위상을 도출해 내어 아직까지 활성화되지 못한 碑誌 硏究에 대한 한 대안을 모색, 17세기 비지 찬작의 정채로운 한 현장의 단면을 우선 밝혀내었다. 尤庵의 碑誌文에 대한 구체적이며 본격적인 접근은 17세기 비지 찬작의 실태와 수준을 파악할 수 있는 시금석이다. 우암은 栗谷의 생애 및 학문과 관련된 碑誌 2편, 孝宗(1619∼1659)의 생애를 정제된 구조 안에서 펼쳐 낸 「寧陵誌文」 등 陵誌 3편을 포함하여 약 557 편의 비지를 찬작하였다. 우선 조선시대를 통 털어 가장 다수의 작품을 찬작해 낸 점에서 그 사적 위상과 의미를 간과할 수 없다. 尤庵 碑誌가 양적으로 풍부하게 된 배경에는 이미 20대에 沙溪 金長生(1548∼1631)의 문하에 입문한 이후 西人系 名家 및 名人들과 인적·학적·정치적 교류의 범위가 확대되고 심화된 점과 무관치 않다. 청탁과 수락의 과정에서 우암은 비지에 대한 자신의 기본 관점과 서술 과정에 있어서 撰作의 動機와 敍述의 方向, 墓主-被撰者에 대한 자신의 시각과 평가의 방향, 교정의 세부 내용 등 비지에 관한 제반 미학적, 수사적 담론을 치밀하고 다양하게 전개하였다. 본 논문에서는 557여 편의 방대한 양을 자랑하는 尤庵의 碑誌 전체에 우선 초점을 맞추어 찬작의 주요한 배경을 간파하기 위하여 우암 및 그 주변 인물들이 전개한 방대한 담론의 양상을 검토할 뿐만이 아니라 우암 비지와 직접 관련된 기사를 우암의 詩, 疏箚, 書, 祭文, 序文, 記文, 跋文 등에서 우선 두루 섭렵함으로써 당시 우암과 교류의 양상이 뚜렷한 17세기 지성들의 증언까지 함께 고찰하였다. Ⅱ장에서는 우선 17세기에 비지의 찬작이 유행하게 되는 분위기 속에서 비지의 功效에 대한 당대 인식과 우암 비지에 있어서 주요한 인물의 양상을 검토하였다. 이 검토를 통하여 우암이 비지를 다작하게 된 이유와 당시 우암의 지위가 어떠한 관계에 있는지 설명해 보았다. 우암이 다작을 하게 된 일차적인 배경에는 王室의 요청 및 17세기 西人系 家門의 성장과 밀접한 연관이 있다. 특히 우암 및 그 주변 인물들의 비지에 대한 소통의 양상을 우암의 서간문 전체와 주변 인물들의 언급 등 방계 자료를 면밀히 조사하고 검토하여 비지의 功效와 찬작의 일반적인 관행, 우암의 기본적인 찬작 성향을 중심에 두고 찬작을 둘러싼 제반 논의들을 통하여 17세기 서인계 문인 사회에서 비지에 대한 제반 주요 논의의 양상이 구체적으로 밝혀졌다. Ⅲ장에서는 우암 비지에 形象化된 主題의 主要領域을 時代相의 反映, 君臣 知遇와 尊周大義의 追求, 正學 守護와 時流 批判, 政治的 危機와 晩節의 闡揚 네 개의 영역으로 나누어 밀도 있게 고찰하여 보았다. 이들 주제의 주된 영역은 尤庵의 碑誌에 있어서 가장 비중 있는 墓主의 삶을 대변하고 있는데, 우선 17세기 시대적 한계와 특수성 속에서 당대 명인들의 인상적인 삶을 양상과 지향, 시대에 대한 고민을 파악 가능케 한다. 우암은 시대의 폭압 속에서 명멸해 간 명인들의 삶을 애도하고 동조하였으며 시대적 한계를 극복하는 개인의 삶을 보여주는 가운데 시대와 인간 가치에 대하여 當爲의 準則을 제시하고 있다. 이 장에서는 이들 조선 명인들의 삶을 통하여 우암이 지켜내고 현양하고자 한 삶의 가치를 파악하는 과정에서 17세기 사대부 사회에서의 삶의 지향이 갖는 보편적 분위기와 전후의 시대와는 매우 변별적인 특성 등을 파악하는 가운데 우암 비지의 주요 작품이 획득하고 있는 미적 수준의 면모를 파악할 수 있을 것이다. 우암이 채택된 어휘의 심각성, 시대상의 면모를 통하여 비지의 찬자로서 우암의 시각과 문제의식 등이 구조적, 형식적으로 어떻게 구현되고 있는 지 그 미적 수준의 정도를 간파되는 것이다. Ⅳ장에서는 17세기 비지의 찬작 현장에서 우암 비지의 위상을 정리하였다. 우암은 당시 정치와 문화의 중심으로 부상한 서인계 명가 뿐만 아니라 왕실과 학계로부터 비지의 찬작이 쇄도할 정도로 그 위상이 높았을 뿐만 아니라, 그 자신이 비지의 문체 자체에 대한 인식과 그 사적 전개 양상에 대한 지식이 풍부하였다. 그리고 당시 557편에 달하는 비지를 요청 받아 생산해 내는 과정에서 조선시대의 여타 문장가들보다 비지의 서술 방향과 표현 방식에 대한 의미 있는 담론을 전개하였다. 따라서 17세기 비지의 찬작 현장과 작품 활동 양 측면에서 우암 비지의 위상은 간과할 수 없는 위치를 점하고 있다. 본 장에서는 우암 비지에 대한 당대의 평가와 비지에 대한 우암의 기본 시각이 갖는 의미, 우암 비지에 관류하는 주제의 영역이 보여주고 있는 시대적 의미를 염두에 두고 17세기 비지의 정채로운 영역을 차지하고 있는 우암 비지의 성격을 도출하였다. 우암은 그의 일생 동안 문장가로 자부했던 인물은 결코 아니다. 그의 인생 목표는 문장가로서의 삶이 아니라 전도된 시대의 가치를 교정하고 正學의 계보를 정립, 수호하는 학인으로서의 삶이었다. 우암 비지는 17세기의 주요한 역사적 사건을 대변하는 주요한 시대적 소산으로서, 時代의 價値를 고수하면서 生死를 불고하다 명멸해 간 17세기의 지성과 명인들에 대한 尤庵의 哀悼이자 獻辭라고 하겠다.

      • 『孤山遺稿』의 碑銘 연구

        박세라 전남대학교 대학원 2010 국내석사

        RANK : 248604

        고산의 비명은 일반적인 묘지문 전개와 크게 벗어나지는 않지만 전형적인 형식을 가지는 것에 그치는 것이 아니라 서두나 배치 순서가 다르게 전개되고 있는 것만 보아도 고산은 비지문의 서술에 대해 다양한 고민을 하였던 것으로 보인다. 본고에서는 고산이 비명을 통해 어떤 의미를 전달하고 어떻게 효과적으로 서술하려고 하였는지를 중심으로 살펴볼 것이다. 먼저 2장에서는 일반적인 비문과 고산의 비문의 서술 형태에 대해서 살펴보았다. 3장에서는 고산유고의 서술방식을 살펴보았다. 고산은 예시와 직접인용을 통하여 유묘라는 비판을 벗어나고자 사실성을 부여하고자 하였다. 또한 전고를 인용하여 작가정신을 압축하면서 인물의 행적을 높임에 권위를 부여하였다. 또 중요한 행적을 확대 서술하여 행적을 강조하고자 하였다. 4장에서는 고산유고의 비명 내용체계에 대해서 알아보았다. 고산의 비명에는 유기적인 구성이 눈에 띄는 작품이 있어 그것을 통해 어떤 내용을 드러내고자 하였는지 알아보았다. 또 주관적 견해는 따로 서술하려 한 것이 특징적이었다. 그리고 부정적 인물의 삽입을 통한 대비를 하면서 묘주의 긍정적 형상화에 기여하였다. 5장에서는 앞의 내용을 바탕으로 『孤山遺稿』碑銘의 전기문학적인 의미에 대해서 살펴보았다. 마지막으로 6장에서는 이러한 내용을 요약․정리하여 본 연구를 마무리하였다.

      • 비지도 학습을 기반으로 한 자동 문서 범주화

        고영중 서강대학교 대학원 1999 국내석사

        RANK : 199503

        최근 인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 효율적인 정보 관리 및 검색이 요구되고 있다. 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로서 효율적인 정보관리 및 검색을 가능하게 하는 동시에 전통적으로 문서 분류를 위해 요구되어 왔던 방대한 양의 수작업을 감소시키도록 하는데 그 목적이 있다. 자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반(supervised learning)으로써 보통 수 작업에 의해 범주가 할당된 대량의 학습문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다는 것이다. 즉, 학습 문서 생성을 위해 문서를 수집하는 것은 쉬우나 수집된 문서에 범주를 할당하는 것은 매우 어렵고 시간이 많이 소요되는 작업이라는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 비지도 학습(unsupervised learning)기반의 문서 자동 범주화 기법을 제안한다. 제안된 기법은 수집된 문서를 문장 단위로 나눈 후 각 범주의 핵심어(keywords) 입력과 문장간 유사도 측정 기법을 사용하여 문장들을 각 범주별로 분류하고 이들을 사용하여 학습하는 방법이다. 실험을 통해 살펴본 제안된 기법의 성능은 지도 학습 기반의 문서 범주화 시스템의 성능과 근소한 차이만을 보이고 있다. 그러므로, 제안된 기법은 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 영역에 유용하게 사용될 수 있을 것이다. With the growth of the Internet, available online text information has increased exponentially. Therefore, the need for an efficient data management and retrieval technique has become greater. Automatic text categorization is problem of automatically assigning predefined categories to free text documents, thus allowing for less manual labor required by traditional categorization methods. Previous works in this area have used large number of labeled training documents for supervised learning. The problem is that it is difficult to create the labeled training documents needed. It is easy to collect the unlabeled data but it is not so easy to manually categorize them for creating training documents. In this thesis, we propose an unsupervised learning method to overcome these difficulties. The proposed method divides the documents into sentences, categorizes each sentence using manually created keywords and sentence similarity measure, and uses them for training. The proposed method has little difference in performance from the supervised learning methods. Therefore, this method can be used in areas where low-cost text categorization is needed and to create training corpus.

      • 비지도 학습 기반 특정 기간 내 급상승 키워드 및 중요 문장 추출 방법

        김현준 연세대학교 대학원 2020 국내석사

        RANK : 150319

        With the development of natural language processing technology and the advent of the era of big data, text analysis is becoming common in many areas. Keyword extraction and document summaries among them are widely used to identify issues that are mentioned in the community or on social networking sites. However, there were two major problems with unsupervised keyword extraction and document summary methods that were previously used in practice. One is that it is difficult to find keywords within a specific period of time, and the other is that it is difficult to distinguish the results of document summaries by their topics. In this study, I propose a method of extracting rising keywords and important sentences within a certain period of time that can solve the above two problems. First of all, the rising keyword is extracted the frequency of words in the past, the frequency of words over the period to be analyzed, and the number of writers of the posts that contain those words. Important sentence extraction uses embedded sentences using fastText pre-trained model and then generated embedded vectors to make clusters of sentences with K-means clustering algorithm. And using the keyword scores extracted earlier, the sentences containing the high scored keywords are extracted one by one for each cluster. Through this process, important sentences of various topics were extracted. The official communities of 'Lineage M' and 'Lineage 2M' were used in the experiment for analysis of results. Using extracted keywords and important sentences, the survey was conducted on those with abundant domain knowledge such as NC soft employees. Experiments have shown that the proposed method is more useful for extracting key words and important sentences by topic than the existing method of document summary. This study is meaningful in that it extracts rising keywords which are satisfactory without training data. In addition, it is able to extract important sentences by topic, even within the group of documents that have different topics, based on the methods proposed in this study. This method is useful because it can be used directly in practice where text is not classified by topic category and where hard to make training data. However, the study conducted an experiment using only text data from a limited domain such as games. Further research is needed on various domains. 자연어 처리 기술이 발전하고 빅데이터의 시대가 도래하면서 많은 분야에서 텍스트 분석이 일반화되고 있다. 그 중에서도 키워드 추출과 문서 요약은 커뮤니티나 SNS에서 회자되는 이슈를 파악하기 위해 널리 쓰이고 있는 방법이다. 그러나 기존에 실무에서 사용되던 비지도학습 기반 키워드 추출과 문서 요약 방법은 크게 두가지 문제를 갖고 있었다. 첫째는 특정 기간 내의 키워드를 찾기 힘들다는 것이고 둘째는 문서 요약 결과를 주제 별로 구분하기 힘들다는 것이다. 본 연구에서는 위 두가지 문제를 해결할 수 있는 특정 기간 내 급상승 키워드 및 중요 문장 추출 방법을 제안한다. 우선 급상승 키워드는 과거의 단어 빈도, 분석 대상 기간 동안의 단어 빈도, 해당 단어가 포함된 게시글 작성자 수를 고려하여 추출한다. 중요 문장 추출은 fastText 사전 모델을 통한 문장 임베딩을 한 후 임베딩 벡터를 활용하여 K-means 군집화 알고리즘으로 주제 별로 문장 군집을 생성한다. 그리고 앞서 추출한 키워드 점수를 이용하여 높은 점수의 키워드를 포함한 문장들을 군집 별로 하나씩 추출한다. 이 과정을 통해 다양한 주제의 중요 문장을 추출하였다. 결과 분석을 위한 실험에서는 ‘리니지M’과 ‘리니지2M’의 공식 게시판을 활용하였으며 추출된 키워드와 중요 문장을 활용하여 관련 도메인 지식이 풍부한 엔씨 소프트 직원들을 대상으로 설문 조사를 진행하였다. 제안 방법이 기존 키워드 추출과 문서 요약 방법들에 비해 급상승 키워드와 주제 별 중요 문장 추출에 유용함을 볼 수 있었다. 본 연구는 학습 데이터 없이 텍스트 데이터만으로 만족할 만한 성능의 급상승 키워드를 추출했음에 의의가 있다. 또한 본 연구에서 제안한 방법을 바탕으로 다양한 주제의 중요 문장을 추출함으로써 여러 주제의 문서가 등장한 문서 집단 내에서도 주제 별로 손쉽게 중요 문장을 추출할 수 있다. 이 방법은 학습 데이터를 만들기 힘들고 텍스트가 주제 카테고리 별로 분류되지 않는 실무에서 바로 활용할 수 있는 유용한 방법이라고 할 수 있다. 그러나 이 연구는 게임이라는 한정된 도메인의 텍스트 데이터만 활용하여 실험을 진행하였으며 다양한 도메인을 대상으로 추가적인 연구가 필요하다.

      • 미등록단어 문제와 데이터 부족 현상을 해결하기 위한 비지도학습 토크나이저와 추출 기반 문서 요약 기법

        김현중 서울대학교 대학원 2019 국내박사

        RANK : 101229

        Natural language processing is interested in converting a human language into computer-usable information to solve real problems. Among its various sub-tasks, tokenization is a fundamental data pre-processing task that aims to detect words or morphemes from its input sentence. Therefore, ineffective tokenization degrades the quality of other subsequent natural language processing tasks such as document summarization, in which documents are condensed into several key words or sentences. All of these various natural language processing tasks share common intrinsic challenges such as out-of-vocabulary problem, lack of labeled training data and inevitable grammatical or spelling errors within the input texts. Among these various issues, grammatical or spelling errors are especially fatal for natural language processing for Korean. As the readability of the Korean texts are not significantly affected by these errors, these errors are simply overlooked in the training data, thereby causing tokenization to be increasingly difficult. Furthermore, these overlooked grammatical or spelling errors are one of the main reasons behind the out-of-vocabulary problem in Korean. Unfortunately, there is simply not enough training data to resolve these errors. In this paper, I propose various unsupervised Korean natural language processing methods to overcome these issues. Due to its unsupervised nature, it can be easily applied to various domains that lack labeled training data. Instead of relying on labeled data, I utilize the structures of Eojeol, a basic unit of a Korean word, as a prior knowledge for capturing the patterns in the Korean language. Based on dividing Eojeol into a L + [R] structure, I propose four new unsupervised natural language processing methods for Korean. To overcome the out-of-vocabulary problem, I create two Eojeol based unsupervised Korean tokenizers that not only outperforms Word Piece Model but also performs at a similar level as supervised Korean tokenizers that are trained on labeled datasets and dictionaries. Furthermore, I devise a novel noun extraction method that is superior than the trained Korean morpheme analyzers. Beside these pre-processing tasks, I also propose key words and sentences selection method that removes redundant sentences and summarizes a set of Korean documents without relying on any tokenizer. For summarizing a document set that consists of documents with various topics, I additionally propose an improved document clustering method and effective cluster labeling method. It is up to several thousand times than existing k-means clustering algorithm during initialization. Finally, I propose summarization method for time series formed document set. It first devides the data it into several segments based on time point of topic change, then the keyword and keysentence extraction methods proposed in previous chapter are applied to summarize each segment. Our improved clustering and time-series formed documents summarization methods can be applied to different languages not only Korean. Supervised machine learning approaches are inevitable in natural language processing. However, unsupervised methods offer additional insight into Korean language that supervised methods fail to capture.As our unsupervised methods perform at a similar level as their supervised counterparts, integrating both approaches will provide unprecedented improvement in the world of Korean natural language processing. 자연어처리는 사람의 언어를 컴퓨터가 이용할 수 있는 형태의 정보로 변환하거나 이를 이용하는 과업들로 이뤄진 분야이다. 토크나이징은 문장을 단어나 형태소와 같이 분석의 단위로 분해하는 과업으로, 다른 자연어처리 과업의 입력 데이터를 처리하는 기초 과업이다. 토크나이저의 성능이 좋지 않을 경우 문서 요약이나 토픽 모델링과 같은 다른 자연어처리 과업의 품질이 저하된다. 문서 요약 과업은 키워드나 핵심 문장을 통하여 문서 집합의 내용을 요약하는 과업으로, 대량의 문서 집합에 대한 탐색을 편리하게 도와주거나 문서를 인덱싱 하는데 이용될 수 있다. 그러나 자연어처리 과업은 다음의 어려움을 지닌다. 첫째, 미등록단어 문제라 불리는 현상으로, 학습 데이터에 등장하지 않은 단어를 제대로 인식하지 못할 수 있다. 둘째, 각 과업에 적합한 학습 데이터를 마련하기 어렵다. 셋째, 텍스트 데이터에는 띄어쓰기 오류 및 철자법 오류에 의하여 잘못된 자연어처리 결과가 야기될 수 있다. 영어와 달리 한국어에는 띄어쓰기와 철자법 오류가 빈번하며, 이로 인하여 단어의 경계 구분이 어려운 경우가 발생한다. 위의 어려움들은 서로가 연결되어 있다. 데이터 내 오류는 미등록단어 문제를 발생시키며 이를 해결하는 모델을 구축하기 위해서는 추가적인 학습 데이터가 필요하다. 이러한 어려움은 토크나이저와 문서 요약 외 다른 자연어처리 과업들에서도 공통적으로 발생한다. 이 논문에서는 한국어 자연어처리 과업에서 발생하는 어려움을 해결하기 위하여 한국어의 구조적 특징을 이용하는 비지도학습 자연어처리 방법들을 제안한다. 비지도학습 방법은 학습 데이터를 이용하지 않기 때문에 다양한 도메인의 자연어처리 과업에 적용하기 용이하다. 또한 한국어의 구조적 특징은 비지도학습 기반 모델의 사전 지식 역할을 하여, 데이터로부터 효율적으로 정보를 학습할 수 있도록 도와준다. 이 논문에서는 비지도학습 한국어 자연어처리에 적합한 어절 구조인 L + [R] 와 이를 이용하는 다섯 가지 비지도학습 자연어처리 방법을 제안한다. 첫째, 미등록단어 문제를 해결하기 위하여 한국어 어절의 구조를 기반으로 작동하는 비지도학습 기반 한국어 토크나이저를 제안한다. 제안한 토크나이저는 Word Piece Model 보다 좋은 분류 성능과 학습 데이터를 이용하는 형태소 분석기와 비슷한 단어 인식 성능을 보였다. 둘째, L + [R] 구조를 기반으로 명사를 추출하는 방법을 제안하였으며, 이 역시 학습 말뭉치와 단어 사전을 이용하는 형태소 분석기보다도 뛰어난 명사 인식 능력을 보였다. 셋째, 단일 주제의 문서 집합 요약을 위한 키워드 및 핵심 문장 추출 방법을 제안하였다. 이 방법은 단어 추출 과정이 내제되어 있으며 키워드의 미등록단어 문제에 강건하다. 또한 중복되지 않는 문장들로 핵심 문장을 구성할 수 있다. 넷째, 다양한 주제로 구성된 문서 집합을 요약하기 위한 문서 군집화 기반 키워드 추출 방법을 제안하였다. 이 방법은 효율적인 문서 군집화를 위하여 초기화 과정을 개선하였으며, 개선된 Spherical k-means 방법은 기존의 알고리즘보다 수천배 빠른 초기화 계산 속도를 보였다. 또한 군집화 결과인 군집 중심값만을 이용하여 각 군집의 키워드를 추출하기 때문에 추가의 문서 요약 모델을 학습할 필요가 없다. 다섯째, 뉴스와 같이 시계열 형식으로 발생하는 문서 집합을 요약하는 방법을 제안하였다. 이 방법은 시계열 구분 방법을 이용하여 문서 집합의 주제가 변하는 시점을 기준으로 구간을 분리하며, 구간 별 키워드와 핵심 문장을 추출하여 구간 내 문서 집합을 요약한다. 제안된 문서 군집화 기반 키워드 추출 방법과 시계열 형식의 문서 집합 요약 방법은 한국어가 아닌 다른 언어에도 적용될 수 있다. 지도학습 기반 머신러닝 모델들은 다양한 과업에서 높은 정확도를 보여주지만, 학습 데이터에 대한 편향성 때문에 모델이 적용될 데이터에 적합하도록 조정이 필요하다. 이와 반대로 비지도학습 기반 방법은 모델이 적용될 데이터로부터 정보를 추출하며, 지도기반 모델들의 편향성 문제를 완화하는데 이용될 수 있다. 이 논문에서 제안하는 방법들은 비지도학습 기반으로만 작동함에도 불구하고 지도학습 기반 방법보다 좋거나 비슷한 성능을 보인다. 그러므로 제안한 방법과 지도학습 기반 방법을 상호 보완적으로 이용된다면 높은 정확도와 학습 데이터에 대한 편향성이 적은 모델로 발전할 수 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼