http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
한국어 말뭉치 구축의 현황 - 연세 말뭉치를 중심으로 -
김한샘 ( Kim Han-saem ) 반교어문학회 2017 泮橋語文硏究 Vol.0 No.45
연세 말뭉치는 양적인 확장과 질적인 완성도 제고라는 두 가지 방향성을 가지고 꾸준히 구축되어 왔으며 말뭉치의 품질을 높이기 위한 연구가 병행되고 있다. 말뭉치는 원 자료의 매체가 무엇이냐에 따라 문어 말뭉치, 구어 말뭉치, 다면 자료 말뭉치로 나눌 수 있으며 시간의 흐름에 따른 변화 포착이 목적인지 여부에 따라 공시적 언어 자원과 통시적 언어 자원으로 나눌 수 있고, 언어 자원 생산자의 거주 지역, 성별, 사회적 계층에 따라 다른 성격의 언어 자원이 생성되며 텍스트 자체의 특성을 결정짓는 장르에 따라서도 분류할 수 있다. 연세 말뭉치는 원시 말뭉치, 형태소 주석 말뭉치, 어휘 주석 말뭉치, 다의어 주석 말뭉치, 몸짓 주석 말뭉치 등 주석 단계별로 다양한 말뭉치를 포함하며 시기적으로는 현대 한국어 형성기라 볼 수 있는 1800년대 후반 이후의 텍스트를 골고루 포함하고 있다. 연세 말뭉치는 말뭉치의 원자료 매체가 문자 언어, 음성 언어, 발화 영상, SNS로 다양하며 활용 분야도 사전 편찬, 언어 연구, 언어 교육, 학제적 연구 등으로 다양하다. The Yonsei corpus has been constructed steadily with two directions : quantitative expansion and quality improvement, and research is conducted to improve the quality of corpus. A corpus can be divided into an octopus corpus, a spoken corpus, and a polyhedron corpus depending on what the medium of the original data is, and it can be divided into a temporal language resource and a communicative language resource depending on whether the purpose is to capture change with time, Language resources of different characteristics are generated according to the residence area, sex, and social class of the language resource producer, and the language resource can be classified according to the genre which determines the characteristics of the text itself. The Yonsei corpus includes various corpus of Chinese corpus such as primitive corpus, morpheme annotation corpus, vocabulary annotation corpus, vernacular annotation corpus, gesture annotation corpus, and evenly includes texts from late 1800s is. The Yonsei corpus varies in the source language of the corpus as the text language, the spoken language, the spoken language, and SNS, and the fields of application vary in dictionary compilation, language research, language education, and interdisciplinary research.
한국어 언어 자원 분석의 표준 -형태 분석을 중심으로-
김한샘 ( Han-saem Kim ) 배달말학회 2016 배달말 Vol.58 No.-
자연언어처리 분야에서 표준은 서로 다른 주체가 생성한 언어 자원을 공유하기 위한 상호호환성을 보장하기 위해 필요하다. 새로운 언어 자원을 구축하는 기준이 되기도 하지만 기구축된 언어 자원을 재사용하거나 병합하는데에도 표준은 중요한 역할을 하게 된다. 공개된 언어 자원이 누구에게나 익숙하고 접근 가능한 표준적인 형식으로 되어 있다면 연구의 재연성이 보장되고 개인과 기관, 대학 등에서 산발적으로 구축한 언어 자원이 연구의신뢰도를 높일 만한 수준의 규모로 재구성될 수 있다.형태 주석과 관련한 국제 표준은 ‘Morpho-syntactic annotation framework’이고 ‘Word segmentation of written text’은 동북아 언어의 단어 분할 단위 설정을 위해 따로 만든 국제 표준이다. 한국정보통신기술협회에서 관리하는 국내 표준은 최근 21세기 세종계획의 형태 분석 지침을 바탕으로 갱신되었는데 내적 일관성과 언어 단위의 적용 면에서 개선이 필요하다. 국제 표준을 현지화하기 위해서는 한국어 기준 표준 모형, 가이드라인이 개발되어야 하고, 언어 자원에 표준을 일관되게 적용하기 위해서는 지침의 기계가독화 노력이 필요하다. they also play essential roles to reuse or combine the existing language resources. If the disclosed language resource follows the accessible standard form familiar to everyone, the resuscitation of researches is secured, and the language resources sporadically established by individuals, institutes, and colleges can be recomposed in the level of increasing the reliability of researches. The international standard related to morpho-annotation is the ‘morphosyntactic annotation framework’ while the international standard related to lexical annotation is the ‘lexical markup framework’. The ‘word segmentation of written text’ is the standard applying to morpho/lexical cases including multi-lexical expressions. However, the reality of the natural language process of Korean does not have the international interoperability through the application of standards. To apply the standard information description system to the characteristics of Korean language, it should be modified by reflecting the characteristics of Korean language, and also the stereotyped models based on proper standards should be developed. It is still in the stage of simply translating the international standards into Korean ones. In the future, however, it would be necessary to develop the standard model based on Korean language to actually localize the international standards, and also guidelines to concretely apply it to Korean language resources.