RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        국어의 형태소 분석에 대한 일고찰(1) - 고유명사를 중심으로

        이상복 배달말학회 2012 배달말 Vol.50 No.-

        It is considered in general that we cannot divide proper nouns any deeper. In respect of many linguistic phenomena, however, they should also be analyzed morphologically if they are a composite of two or more morphemic forms. Whatever linguistic form a word may have, if it is once analyzed into parts, its meaning as a whole gets lost. However, if the linguistic form is a composite, we should try a morphological analysis of it. In case of common nouns, they are objects of morphological analysis if they are a composite, even though they do not always refer to their referents by their etymological meaning and the referents may not be referred to by the analyzed components of the composite. Therefore, it cannot be the reason for not doing the analysis of proper nouns morphologically that they do not refer to their referents by their etymological meaning and their analyzed components may neither carry their composite meaning nor refer to the referents of the composite. Since the difference between common nouns and proper nouns is not whether they are analyzable morphologically and to divide a linguistic form into smaller parts has nothing to do with the number of its referents, if common nouns are morphologically analyzable, there is no reason for avoiding morphological analysis of proper nouns. In fact, the morphological and semantic discussions on proper nouns so far presuppose the morphological analysis of them. Obviously, if we do not analyze proper nouns morphologically, then there would be a problem that we have to treat proper nouns of composite form as single morphemes, and that the same forms used in both proper nouns and other words must be treated differently. And a morpheme used in a proper noun itself is a general independent morpheme, having no relation to the unique meaning of the whole proper noun. It is thus necessary that proper nouns undergo morphological analysis. Use of one syllable or two for first name in personal names and calling a person of two-syllable first name only with one syllable suggest that personal names can be morphologically analyzed. The possibility of morphological analysis of geographical names and business-firm names is supported by those names composed of two or more languages, the coexistence of a pure Korean name and a Sino-Korean name for the same place, the place names made up of one syllable each from two Sino-Korean place names, and a code in the ‘Law of Roman Alphabetic Transliteration of Korean’ that stipulates a hyphen (-) should be inserted before a form representing an administrative district unit or ‘ga’ meani ng street. 일반적으로 고유명사는 특정한 한 지시 대상만을 가리키는 특칭적 의미로 해서 더 이상 분석할 수 없는 것으로 보고 있으나, 여러 사실들에 비추어 볼 때 고유명사도, 그것이 복합형태로 된 것이면, 형태소 분석을 해야 한다. 어떠한 언어형태이든 그것을 분석하면 그 의미가 깨지나 그것이 복합형태이면 형태소 분석을 하고, 보통명사들도 항상 그 어원적 의미를 염두에 두고 사용되는 것은 아니며, 또 그것을 분석하면 그 지시 대상을 가리킬 수 없으나, 그것이 복합형태이면 형태소 분석을 한다. 따라서 고유명사가 그 어원적 의미로 지시 대상을 가리키지 않고, 그것을 분석했을 때 의미가 상실되고 그 지시 대상을 가리킬 수 없는 것이 고유명사를 더 이상 분석할 수 없는 근거가 될 수 없다. 보통명사와 고유명사의 구분은 형태소 분석 가능 여부에 의한 것이 아니며, 하나의 언어형태를 작게 쪼개는 것은 그 지시 대상이 몇이냐와는 아무런 관련이 없다. 그러므로 보통명사가 형태소 분석이 가능하다면 고유명사도 형태소 분석을 해서 안 될 이유가 없다. 기존의 고유명사에 관한 형태론적, 의미론적 논의들은 고유명사의 형태소 분석을 전제로 하는 것이며, 고유명사를 형태소 분석을 하지 않으면 복합형태의 고유명사를 하나의 형태소로 다루어야 하고, 한 가지 말이 고유명사와 그 밖의 말에 쓰였을 때 서로 달리 처리해야 하는 문제가 있다. 그리고 고유명사에 쓰인 형태소 자체는 고유명사의 특칭적 의미와는 아무 관련이 없는 일반 형태소이다. 그러므로 고유명사도 형태소 분석을 하는 것이 마땅하다. 한자 인명의 외자 이름과 두 자 이름의 구분, 두 자 한자 인명을 외자 이름으로 줄여 부름은 인명의 형태소 분석 가능성을, 그리고 둘 이상의 어종으로 된 지명과 상호, 한 지명에 대한 고유어 지명과 한자 지명의 공존, 두 한자 지명에서 한 자씩 따서 만든 지명, ‘국어 로마자 표기법’에서 행정구역 단위와 ‘가’ 앞에 붙임표(-)를 넣도록 한 규정은 지명과 상호의 형태소 분석 가능성을 뒷받침해 주는 것이다.

      • KCI등재

        국어학 : 국어의 형태소 분석에 대한 일고찰(1) -고유명사를 중심으로-

        이상복 ( Sang Bok Lee ) 배달말학회 2012 배달말 Vol.50 No.-

        일반적으로 고유명사는 특정한 한 지시 대상만을 가리키는 특칭적 의미로 해서 더 이상 분석할 수 없는 것으로 보고 있으나, 여러 사실들에 비추어 볼 때 고유명사도, 그것이 복합형태로 된 것이면, 형태소 분석을 해야 한다. 어떠한 언어형태이든 그것을 분석하면 그 의미가 깨지나 그것이 복합형태이면 형태소 분석을 하고, 보통명사들도 항상 그 어원적 의미를 염두에 두고 사용되는 것은 아니며, 또 그것을 분석하면 그 지시 대상을 가리킬 수 없으나, 그것이 복합형태이면 형태소 분석을 한다. 따라서 고유명사가 그 어원적 의미로 지시 대상을 가리키지 않고, 그것을 분석했을 때 의미가 상실되고 그 지시 대상을 가리킬 수 없는 것이 고유명사를 더 이상 분석할 수 없는 근거가 될 수 없다. 보통명사와 고유명사의 구분은 형태소 분석 가능 여부에 의한 것이 아니며, 하나의 언어형태를 작게 쪼개는 것은 그 지시 대상이 몇이냐와는 아무런 관련이 없다. 그러므로 보통명사가 형태소 분석이 가능하다면 고유명사도 형태소 분석을 해서 안 될 이유가 없다. 기존의 고유명사에 관한 형태론적, 의미론적 논의들은 고유명사의 형태소 분석을 전제로 하는 것이며, 고유명사를 형태소 분석을 하지 않으면 복합형태의 고유명사를 하나의 형태소로 다루어야 하고, 한 가지 말이 고유명사와 그 밖의 말에 쓰였을 때 서로 달리 처리해야 하는 문제가 있다. 그리고 고유명사에 쓰인 형태소 자체는 고유명사의 특칭적 의미와는 아무 관련이 없는 일반 형태소이다. 그러므로 고유명사도 형태소 분석을 하는 것이 마땅하다. 한자 인명의 외자 이름과 두 자 이름의 구분, 두 자 한자 인명을 외자 이름으로 줄여 부름은 인명의 형태소 분석 가능성을, 그리고 둘 이상의 어종으로 된 지명과 상호, 한 지명에 대한 고유어 지명과 한자 지명의 공존, 두 한자 지명에서 한 자씩 따서 만든 지명, ``국어 로마자 표기법``에서 행정구역 단위와 ``가`` 앞에 붙임표(-)를 넣도록 한 규정은 지명과 상호의 형태소 분석 가능성을 뒷받침해 주는 것이다. It is considered in general that we cannot divide proper nouns any deeper. In respect of many linguistic phenomena, however, they should also be analyzed morphologically if they are a composite of two or more morphemic forms. Whatever linguistic form a word may have, if it is once analyzed into parts, its meaning as a whole gets lost. However, if the linguistic form is a composite, we should try a morphological analysis of it. In case of common nouns, they are objects of morphological analysis if they are a composite, even though they do not always refer to their referents by their etymological meaning and the referents may not be referred to by the analyzed components of the composite. Therefore, it cannot be the reason for not doing the analysis of proper nouns morphologically that they do not refer to their referents by their etymological meaning and their analyzed components may neither carry their composite meaning nor refer to the referents of the composite. Since the difference between common nouns and proper nouns is not whether they are analyzable morphologically and to divide a linguistic form into smaller parts has nothing to do with the number of its referents, if common nouns are morphologically analyzable, there is no reason for avoiding morphological analysis of proper nouns. In fact, the morphological and semantic discussions on proper nouns so far presuppose the morphological analysis of them. Obviously, if we do not analyze proper nouns morphologically, then there would be a problem that we have to treat proper nouns of composite form as single morphemes, and that the same forms used in both proper nouns and other words must be treated differently. And a morpheme used in a proper noun itself is a general independent morpheme, having no relation to the unique meaning of the whole proper noun. It is thus necessary that proper nouns undergo morphological analysis. Use of one syllable or two for first name in personal names and calling a person of two-syllable first name only with one syllable suggest that personal names can be morphologically analyzed. The possibility of morphological analysis of geographical names and business-firm names is supported by those names composed of two or more languages, the coexistence of a pure Korean name and a Sino-Korean name for the same place, the place names made up of one syllable each from two Sino-Korean place names, and a code in the ``Law of Roman Alphabetic Transliteration of Korean`` that stipulates a hyphen (-) should be inserted before a form representing an administrative district unit or ``ga`` meani ng street.

      • KCI등재

        옛한글・현대한글 병렬 자료를 활용한 옛한글 형태소 사전 구축 기법 연구

        강남오,김재호 계명대학교 인문과학연구소 2023 동서인문학 Vol.- No.64

        Morphological analysis of a document written in a natural language provides fundamental information for syntactic analyzing and semantic analyzing. And this is an essential process to develop computer applications based on natural language processes. In developing an old Korean morphological analyzing system, constructing an old Korean morphological dictionary is essential and the number of morphemes registered in the dictionary has a significant impact on the quality and performance of the analysis. However, the development of morphological analyzer and morphological dictionary for old Korean has been slow because old Korean is not used anymore and the demand of processing documents written in old Korean is limited. In this paper, we proposed a technique to construct an old Korean morphological dictionary. After morphologically analyzing a document written in modern Korean, the resulting modern Korean morphemes are searched in a parallel document written in old Korean by using a similarity measure. For accurate and efficient retrieval of a particle, a modern-old particle table is constructed and used. If an old Korean morpheme corresponding to the modern Korean morpheme is found, the morpheme is registered in an old Korean morphological dictionary. If it is not found, a highly probable item in a word order is extracted and it is registered based on the user’s decision. 자연어 자료의 형태소 분석은 구문 분석과 의미 분석을 위한 기초 정보를 제공한다. 그리고 이는 정보 검색 시스템, 기계 번역 시스템, 그리고 질의응답 시스템 등 자연어 처리 기반의 컴퓨터 응용 시스템을 개발하는데 있어서 필수적으로 요구되는 작업이다. 이런 이유로, 현대 한글로 작성된 자료들을 자동으로 처리하기 위해 다양한 형태소 분석기와 형태소 사전이 구축되었고, 산업계와 학계에서 활발히 사용되고 있다. 하지만 옛한글 형태소 분석기와 옛한글 형태소 사전의 개발은 더디게 진행되고 있는데 이는 현재 옛한글을 사용하지 않으며 옛한글 자료 처리에 대한 수요 또한 제한적이기 때문이다. 옛한글 형태소 분석 시스템을 개발하는데 있어서 옛한글 형태소 사전의 구축은 필수적인 요소이다. 그리고 옛한글 형태소 사전에 수록된 형태소의 양은 형태소 분석의 질과 성능에 큰 영향을 미친다. 하지만 방대한 양의 옛한글 형태소 사전을 구축하는 것은 많은 시간과 노력이 드는 작업으로 이의 해결이 쉽지 않다. 본 논문에서는 옛한글-현대한글 병렬자료, 현대한글 형태소 분석기 그리고 현대한글 형태소 사전을 활용하여 옛한글 형태소 사전을 구축하는 방법을 제안했다. 제안한 기법에서는 현대한글 자료를 현대어 형태소 분석기를 이용해서 형태소 분석을 수행한 후 산출된 현대한글 형태소 어휘들을 옛한글 자료에서 유사도 측정을 통해 검색한다. 정확하고 효율적인 검색을 위해 조사의 경우는 미리 구축한 현대한글-옛한글 조사 테이블을 사용했다. 유사도 기반 검색에서 옛한글 형태소가 발견된 경우 현대한글 형태소에 대응되는 옛한글 형태소로써 옛한글 형태소 사전에 등록한다. 검색이 되지 않은 형태소 요소들은 어순 정보에서 가능성이 높은 옛한글 형태소를 추출하고 사용자의 판단에 의해 옛한글 형태소 사전에 등록한다. 옛한글 홍길동전으로 실험한 결과 2464개의 형태소를 자동으로 추출함을 보여주었다.

      • KCI등재

        한국어 교육을 위한 형태소 분석기의 조건과 향후 과제

        김철희,정지호,한혜정,김동현,신명선 한국국어교육학회 2021 새국어교육 Vol.- No.129

        목적: 국어 교육, 한국어 교육을 위한 형태소 분석기의 조건을 탐색하고 현황을 분석하여 향후 과제를 모색하는 데 있다. 방법: 국어 교육, 한국어 교육에서 형태소 분석기가 활용되는 양상과 문제점을 검토하여 형태소 분석기의 조건을 논의하였다. 그리고 조건에 부합하는 형태소 분석기를 탐색 및 선정하여 모어 화자의 작문 텍스트 200편을 학습자 형태 주석 말뭉치로 구축하고, 국어 교육, 한국어 교육 전공자 3명이 정확성과 오류를 검증하였다. 결과: 세종 계획의 품사 태그에 의거한 형태소 분석기는 선어말 어미, 연결 어미 등에 대한 분석 결과를 제공하지 않아 교육적 활용에 한계가 있었다. 이에 대한 대안으로 어미를 세부적으로 분석하는 형태소 분석기의 정확성을 검증한 결과, 정확도는 약 89.9%였으며, 연결 어미와 보조 용언의 오류가 40% 이상을 차지하였다. 결론: 첫째, 어미를 세부적으로 분석할 수 있도록 세종 계획의 형태주석 체계를 개선하여 확률 기반 모델이 적용된 형태소 분석기의 개발이 필요하다. 둘째, 국어 교육, 한국어 교육에서 분석이 요구되는 형태 정보가 무엇인지에 대한 논의가 필요하다. 셋째, 학습자 텍스트의 형태 분석 결과를 활용하기 위한 교육용 시스템의 개발이 필요하다. Purpose: The purpose of this study is to explore the requirements for using a morpheme analyzer in the Korean language education and Korean language education phase, and to explore future tasks. Method: Aspects and problems of using morpheme analyzers in Korean language education and Korean language education were reviewed, and alternative morpheme analyzers were searched and selected. In addition, 200 texts written by native speakers were constructed as a learner-type annotation corpus, and the accuracy and errors were verified by three majors in Korean language education and Korean language education. Result: As an alternative, a morpheme analyzer that analyzes the ending in detail was selected and the accuracy was verified. As a result, the accuracy was about 89.9%, and the errors of the connecting endings and auxiliary verbs accounted for more than 40%. Conclusion: First, it is necessary to improve or develop a morpheme analyzer for Korean language education and Korean language education. Second, it is necessary to discuss the form information required for Korean language education and Korean language education. Third, it is necessary to develop an educational system to utilize the results of morphological analysis of learner texts.

      • KCI등재

        사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기

        김동현(DongHyun Kim),김도국(Do-Guk Kim),김철희(ChulHui Kim),신명선(MyungSun Shin),서영덕(Young-Duk Seo) 한국스마트미디어학회 2023 스마트미디어저널 Vol.12 No.9

        형태소는 한국어에서 의미를 가진 최소단위이기 때문에, 한국어 언어모델의 성능을 높이기 위해서는 정확한 형태소 분석기의 개발이 필요하다. 기존의 형태소 분석기는 대부분 어절 단위 토큰을 입력 값으로 학습하여 형태소 분석 결과를 제시한다. 하지만 한국어의 어절은 어근에 조사나 접사가 부착된 형태이기 때문에 어근이 같은 어절이어도 조사나 접사로 인해 의미가 달라지는 성향이 있다. 따라서 어절 단위 토큰을 사용하여 형태소를 학습하면 조사나 접사에 대한 오분류가 발생할 수 있다. 본 논문에서는 형태소 단위의 토큰을 사용하여 한국어 문장에 내재된 의미를 파악하고, Transformer를 사용한 시퀀스 생성 방식의 형태소 분석기를 제안한다. 또한, 미등록 단어 문제를 해결하기 위해 학습 말뭉치 데이터를 기반으로 사용자 사전을 구축하였다. 실험 과정에서 각 형태소 분석기가 출력한 형태소와 품사 태그를 함께 정답 데이터와 비교하여 성능을 측정하였으며, 실험 결과 본 논문에서 제시한 형태소 분석기가 기존 형태소 분석기에 비해 성능이 높음을 증명하였다. Since morphemes are the smallest unit of meaning in Korean, it is necessary to develop an accurate morphemes analyzer to improve the performance of the Korean language model. However, most existing analyzers present morpheme analysis results by learning word unit tokens as input values. However, since Korean words are consist of postpositions and affixes that are attached to the root, even if they have the same root, the meaning tends to change due to the postpositions or affixes. Therefore, learning morphemes using word unit tokens can lead to misclassification of postposition or affixes. In this paper, we use morpheme-level tokens to grasp the inherent meaning in Korean sentences and propose a morpheme analyzer based on a sequence generation method using Transformer. In addition, a user dictionary is constructed based on corpus data to solve the out-of-vocabulary problem. During the experiment, the morpheme and morpheme tags printed by each morpheme analyzer were compared with the correct answer data, and the experiment proved that the morpheme analyzer presented in this paper performed better than the existing morpheme analyzer.

      • KCI등재

        MADE : 형태소 분석기 개발 환경

        심광섭 ( Kwangseob Shim ) 한국인터넷정보학회 2007 인터넷정보학회논문지 Vol.8 No.4

        본 논문은 실용적인 한국어 형태소 분석기 개발에 사용될 수 있는 도구인 MADE를 소개한다. MADE는 형태소 사전에서 제공되는 인접 조건만을 사용하여 형태소 분석을 수행한다. 이것은 형태소 분석기를 개발하기 위해 별도의 프로그래밍은 전혀 하지 않고 단지 형태소 사전만 구축하면 된다는 것을 의미한다. MADE는 형태소 사전을 구축하고 검증하는 데 필요한 기능들을 제공한다. 일단 형태소 사전이 구축되고 나면 MADE는 독립된 형태소 분석기로서 사용될 수도 있고 형태소 분석기를 필요로 하는 다른 응용 소프트웨어에 내장되어 사용될 수도 있다. This paper proposes a software tool MADE that is useful to develop a practical Korean morphological analyzer. A morphological analysis is performed by using adjacency conditions provided by a morphological dictionary. This means that developing a morphological analyzer is reduced merely to constructing a morphological dictionary. No programming skill is required in this process. MADE provides with useful functions that facilitate the construction of a dictionary. Once a dictionary is constructed, the morphological analysis engine embedded in MADE may be used as a stand-alone morphological analyzer or be integrated into an application software which requires a Korean morphological analysis module.

      • KCI등재

        어절 분석 기반 형태소 분석 시스템 개발에 관한 연구

        조현양,최성필,최재황 한국정보관리학회 2001 정보관리학회지 Vol.18 No.2

        본 연구에서는 정보검색시스템의 성능향상을 위하여 기존에 연구되었던 다양한 어절 분석 기법들을 바탕으로 어절 분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화 그리고 형태소의 정확한 분석을 위한 한국어 어절 분석 시스템을 개발하였다. 본 연구에서 개발된 시스템은 어절 분석 속도를 높일 수 있는 최적의 알고리즘을 구현하였으며, 모듈화된 하부 시스템의 유기적이고 효율적인 결합에 중점을 두로 각 모듈별 성능 및 속도 검증이 가능하도록 하였다. 또한, 재귀적 복협명사 분석을 탈피하여 시스템 부하를 줄이고 다층적 수사 패턴 인식에 기반한 수사 형태소 분석 시스템을 개발하였다. 개발된 어절 분석 시스템을 이용하여 색인 시스템을 구성하고 이를 기반으로 실험을 하였다. The purpose of this study is to develop a Korean word analysis system, which can improve performance of IRS, based on various methods of word analysis. In this study we focused on maximizing the speed of Korean word analysis, modulizing each functional system and analyzing Korean morpheme precisely. The system, developed in this study, implemented optimal algorithm to increase the speed of word analysis and to verify speed and performance of each subsystem. In addition, the numeral analysis processing was achieved to reduce a system burden by avoiding recursive analysis of compound nouns, based on numeral pattern recognition.

      • KCI등재

        기분석 어절 사전과 음절 단위의 확률 모델을 이용한 한국어 형태소 분석기 복제

        심광섭(Kwangseob Shim) 한국정보과학회 2016 정보과학회 컴퓨팅의 실제 논문지 Vol.22 No.3

        본 논문에서는 어절 단위의 기분석 사전과 음절 단위의 확률 모델을 이용하는 한국어 형태소 분석기가 실용성이 있는지를 검증한다. 이를 위해 기존의 한국어 형태소 분석기 MACH와 KLT2000을 복제하고, 복제된 형태소 분석기의 분석 결과가 MACH와 KLT2000 분석 결과와 얼마나 유사한지 정밀도와 재현율로 평가하는 실험을 하였다. 실험은 1,000만 어절 규모의 세종 말뭉치를 10개의 세트로 나누고 10배수 교차 검증을 하는 방식으로 하였다. MACH의 분석 결과를 정답 집합으로 하고 MACH 복제품의 분석 결과를 평가한 결과 정밀도와 재현율이 각각 97.16%와 98.31%였으며, KLT2000 복제품의 경우에는 정밀도와 재현율이 각각 96.80%와 99.03%였다 분석 속도는 MACH 복제품의 경우 초당 30.8만 어절이며, KLT2000 복제품은 초당 43.6만 어절로 나타났다. 이 실험 결과는 어절 단위의 기분석 사전과 음절 단위의 확률 모델로 만든 한국어 형태소 분석기가 실제 응용에 사용될 수 있을 정도의 성능을 가진다는 것을 보여준다. In this study, we verified the feasibility of a Korean morphological analyzer that uses a pre-analyzed Eojeol dictionary and syllable-based probabilistic model. For the verification, MACH and KLT2000, Korean morphological analyzers, were cloned with a pre-analyzed eojeol dictionary and syllable-based probabilistic model. The analysis results were compared between the cloned morphological analyzer, MACH, and KLT2000. The 10 million Eojeol Sejong corpus was segmented into 10 sets for cross-validation. The 10-fold cross-validated precision and recall for cloned MACH and KLT2000 were 97.16%, 98.31% and 96.80%, 99.03%, respectively. Analysis speed of a cloned MACH was 308,000 Eojeols per second, and the speed of a cloned KLT2000 was 436,000 Eojeols per second. The experimental results indicated that a Korean morphological analyzer that uses a pre-analyzed eojeol dictionary and syllable-based probabilistic model could be used in practical applications.

      • KCI등재

        어휘 및 형태 정보를 이용한 한국어 Two-Level 어휘사전 자동 구축

        김보겸 ( Bo Gyum Kim ),이재성 ( Jae Sung Lee ) 한국정보처리학회 2013 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.2 No.12

        Two-level 형태소 분석 방법은 규칙 기반 방법 중 하나로 형태소의 변화 현상을 규칙으로 처리하고, 기본 어휘 사전을 기반으로 형태소 결합관계를 분석한다. 이는 언어에 독립적인 방법으로 한국어에 대해서도 일부 구축되어 적용됨이 증명되었다. 그러나 기존 한국어에 대한 Two-level 형태소 분석기는 사전을 수동으로 구축하여 규모가 매우 작고 실제 사용에 제한적이었으며, 과분석이 많아 효율성이 매우 떨어졌다. 본 논문은 세종 품사부착 말뭉치에서 대규모의 Two-level 어휘 사전을 자동으로 구축하여 형태소 분석기의 적용 범위를 넓히고, 형태소간의 결합관계를 어휘 정보와 어휘 형태에 따른 하위품사 정보를 이용하여 분석함으로써 형태소 분석기의 성능을 향상시킬 수 있는 방법을 제시한 다. 실험 결과, 기존의 방법보다 형태소 분석기의 과분석을 68% 이상 줄여 f-measure를 25.5% point 이상 향상시킬 수 있었다. Two-level morphology analysis method is one of rule-based morphological analysis method. This approach handles morphological transformation using rules and analyzes words with morpheme connection information in a lexicon. It is independent of language and Korean Two-level system was also developed. But, it was limited in practical use, because of using very small set of lexicon built manually. And it has also a over-generation problem. In this paper, we propose an automatic construction method of Korean Two-level lexicon for PC-KIMMO from morpheme tagged corpus. We also propose a method to solve over-generation problem using lexical information and sub-tags. The experiment showed that the proposed method reduced over-generation by 68% compared with the previous method, and the performance increased from 39% to 65% in f-measure.

      • KCI등재

        韓國語 漢字 形態素 개념 정립을 위한 시론(1) - 2字語 構成 要素의 形態素 지위를 중심으로 -

        주지연 한국어문교육연구회 2017 어문연구(語文硏究) Vol.45 No.1

        The purpose of this paper is to establish the concept and scope of Sino-Korean morpheme. The scope of Sino-Korean morpheme analysis has long been controversial. In this paper, we first examined the concept of Korean morpheme, and discussed the possibility of recognizing the Sino-Korean morpheme participating in the 2syllable-word component as morphemes. In this paper, we propose an active morphological analysis of the components of Sino-Korean words, including the 2syllable-word component as well as the 3syllable-word component. It is not only advantageous to understand and explain the formation principle and productivity of Sino-korean technical lexical system, but also helps to capture and explain various aspects of Sino-korean words. In terms of education, the meaning, distribution and function of Sino-korean morpheme can be the subject of education as well as those of the Korean morpheme, and the results of the identification and analysis of Sino-korean morpheme can be used as contents of dictionaries and educational materials. 本稿의 목적은 한국어 漢字 形態素의 개념과 범위를 정립하는 것이다. 漢字語 形態素 分析의 범위는 오랫동안 논란의 대상이었다. 本稿에서는 먼저 국어 形態素의 개념을 점검한 뒤, 이를 토대로 2字語에 참여하는 원사류 한자들을 形態素로 인정할 수 있는가에 대해 논의하였다. 本稿는 국어 漢字語의 構成 要素에 대하여, 그 동안 形態素 分析에 이견이 없었던 차사류(3字語 構成 要素) 뿐 아니라 원사류(2字語 構成 要素)를 포함하여 적극적으로 形態素 分析을 할 것을 주장하였는데, 이는 전문 어휘 체계의 형성 원리와 생산성에 대한 이해와 설명에 유리할 뿐 아니라 漢字語 構成 要素가 보이는 다양한 양상을 포착하고 설명하는 데 도움이 된다. 또한 교육적 측면에서, 國語 漢字語에 참여하는 漢字 形態素는 고유어 形態素와 마찬가지로 그 의미, 분포, 기능이 기술 및 교육의 대상이 될 수 있으며 漢字 形態素 식별 및 分析의 성과는 국어 漢字 形態素 사전 제작이나 교육용 漢字 形態素 목록 개발로 이어질 수 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼