http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Enhancing a Korean Part-of-Speech Tagger Based on a Maximum Entropy Model
나동열,조민희,김윤식 한국자료분석학회 2007 Journal of the Korean Data Analysis Society Vol.9 No.4
The most core task for Korean text processing is to recognize the lexical morphemes in sentences and to determine their part of speeches. This task is called the part of speech tagging. We present several effective schemes to enhance Korean part-of-speech tagging systems that are based on a Maximum Entropy model. We employ two levels of tags, the inner and outer tags. A probability of a morpheme sequence is computed to augment the probability of the Maximum Entropy model. Special feature functions are employed to exploit co-occurrence of multiple lexical items, which seems effective for lexical ambiguity resolution. Experimental results demonstrate usefulness of these schemes.
나동열(Dong-Yul Ra),김윤식(Yunsik Kim),신현주(Hyun-Joo Shin),이규희(Kyu-Hee Lee),김태규(Tae-Kyu Kim),강현규(Hyun-Kyu Kang),최호섭(Ho-Seop Choe),윤화묵(Hwa-Mook Yoon) 한국콘텐츠학회 2007 한국콘텐츠학회 종합학술대회 논문집 Vol.5 No.2_1
문서분류 시스템은 수많은 문서들이 쏟아져 나오는 최근의 인터넷 사회에서 매우 중요한 도구이다. 이러한 이유로 문서분류 기술에 대하여 많은 연구가 있어 왔다. 문서 분류 시스템의 개발을 위해서는 보통 교사학습 기법이 이용되는데 이를 위해서 필수적인 것이 테스트컬렉션이다. 영어의 경우에는 여러 가지의 문서분류 테스트 컬렉션이 있어 이 분야의 기술발전에 많은 도움을 주고 있다. 그러나 한국어의 경우에는 공식적으로 공표된 문서분류 테스트컬렉션이 존재하지 않고 있다. 이려한 상황을 개선하기 위해서 우리는 문서분류 테스트컬렉션의 구축을 진행하고 있다. 본 논문에서는 이에 대한 접근 방법 및 구축 상황을 기술하고자 한다. Document categorization system is important in the intemet age in which huge number of documents are created and need to be dealt with. By this reason a lot of research has been done in this field. For the development of the system, a supervised learning method is widely used. This approach needs a test collection as a prerequisite. For the case of English, several test collections are available which provide a lot of help for developing systems and doing research. But no public test collections have been reported and are not available in the case of Korean. To improve the situation for Korean we are undergoing the construction of a Korean test collection. In this paper the approaches being used and current stage of the collection will be described.
BERT-Fused Transformer 모델에 기반한한국어 형태소 분석 기법
이창재,나동열 한국정보처리학회 2022 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.11 No.4
Morphemes are most primitive units in a language that lose their original meaning when segmented into smaller parts. In Korean,a sentence is a sequence of eojeols (words) separated by spaces. Each eojeol comprises one or more morphemes. Korean morphologicalanalysis (KMA) is to divide eojeols in a given Korean sentence into morpheme units. It also includes assigning appropriatepart-of-speech(POS) tags to the resulting morphemes. KMA is one of the most important tasks in Korean natural language processing(NLP). Improving the performance of KMA is closely related to increasing performance of Korean NLP tasks. Recent research on KMAhas begun to adopt the approach of machine translation (MT) models. MT is to convert a sequence (sentence) of units of one domaininto a sequence (sentence) of units of another domain. Neural machine translation (NMT) stands for the approaches of MT that exploitneural network models. From a perspective of MT, KMA is to transform an input sequence of units belonging to the eojeol domain intoa sequence of units in the morpheme domain. In this paper, we propose a deep learning model for KMA. The backbone of our modelis based on the BERT-fused model which was shown to achieve high performance on NMT. The BERT-fused model utilizes Transformer,a representative model employed by NMT, and BERT which is a language representation model that has enabled a significant advancein NLP. The experimental results show that our model achieves 98.24 F1-Score. 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.
김윤식,나동열,한경호 한국자료분석학회 2003 Journal of the Korean Data Analysis Society Vol.5 No.3
As real time information interchange through Internet increases, chatting language appeared by new research field of natural language processing. Chatting language must include together information interchange and conversation situation as function of fast information transmission media and written language. In the case of chatting language the number of vocabulary increases because a word of a meaning according to chatter's intention is various. This paper wishes to present lexical analysis way to computerize various vocabulary that is used in chatting. 인터넷을 통한 실시간 정보교류가 늘어나면서 채팅언어도 자연어처리의 새로운 연구 분야로 등장하였다. 채팅언어도 신속한 정보전달 매체의 기능과 문자언어로서 정보교류와 대화 상황을 함께 내포해야 한다. 채팅언어의 경우 발화자의 개성에 따라 한 의미의 단어도 표기법이 다양하여 어휘수가 많아진다. 본 논문에서는 채팅에서 사용되는 다양한 어휘를 컴퓨터로 처리하기 위한 어휘 분석 방안을 제시하고자 한다.주요용어 : 채팅언어, 자연어처리, 어휘분석.
김윤식,나동열 한국자료분석학회 2004 Journal of the Korean Data Analysis Society Vol.6 No.1
사이버 영역의 활성화로 인하여 채팅언어의 기계적처리가 새로운 연구분야로 대두되었다. 채팅언어는 인터넷을 통한 실시간 대화어이고 문자형태를 띤 문어와 구어의 양면성을 내포된 언어이다. 문자로서 대화상황을 함께 내포해야 하므로, 한 의미의 단어도 발화자의 개성에 따라 표기법이 다양하여 어휘수가 많다. 이 연구에서는 채팅언어 중에서 가장 많은 어휘를 차지하는 음운변형으로 생겨난 어휘를 연구대상으로 하였다. 채팅어의 컴퓨터 처리를 위해 음운변형어의 변형규칙을 이용한 풀어쓰기식 비트연산에 의한 채팅어휘의 표준어로의 복원방안을 제시한다. As the volume of real-time information exchange through the Internet increases, an Internet chatting language has emerged as a new research field in the process of the natural language formation. Since the Internet chatting language should contain both the function as a medium to deliver prompt information and the status of the exchange of information and chatting as a lettered language, even one word can contain many different meanings according to the Internet chatters. The point of this research is Analysis of the Morpheme in the Internet Chatting Language, resolusion of contraction vocabulary.Contraction of phonemes is the most common and frequent way to create new Internet chatting vocabulary. This study presents methods on how to effectively resolusion process conveyed by the chatting language.