http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
붙은 글자들이 포함된 인쇄체 한.영 혼용 문서에서의 효과적인 문자 인식 알고리즘
김규경,김진호,진성일,최흥문 대한전자공학회 1996 전자공학회논문지-B Vol.b33 No.11
In this paper, we present a character recognition algorithm in printed korean and english documents including touching characters. We derived two rules to segment and recognize touching characters in the bilingual documents, one from the shape characteristics of korean and english characters of the writing blocks defined in this paper, and the other from the RF (reliability factor) values generated from the classifiers. Overall classification accuracy for the KITE paper of the proposed algorithm was about 96.8% for the english abstract, and about 97.8% for the bilingual parts. Also we confirmed the proposed algorithm significantly improves the accuracy of character segmentation of the actual mixed korean and english documents including touching characters.
한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발
김경민,김규경,조재춘,임희석 한국융합학회 2018 한국융합학회논문지 Vol.9 No.12
Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition probability between output data from LSTM-based Bi-LSTM model considering forward and backward directions of input data, showed excellent performance in the study of object name recognition using deep-learning, and it has a good performance on the efficient embedding vector creation by character and word unit and the model using CNN and LSTM. In this research, we describe the Bi-LSTM-CNN-CRF model that enhances the features of the Korean named entity recognition system and propose a method for constructing the traditional culture corpus. We also present the results of learning the constructed corpus with the feature augmentation model for the recognition of Korean object names. 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.
전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템
허윤아,이동엽,김규경,유원희,임희석 한국융합학회 2017 한국융합학회논문지 Vol.8 No.12
The Internet have increased the number of digital web documents related to the history and traditions of Korean Culture. However, users who search for creators or materials related to traditional cultures are not able to get the information they want and the results are not enough. Document classification is required to access this effective information. In the past, document classification has been difficult to manually and manually classify documents, but it has recently been difficult to spend a lot of time and money. Therefore, this paper develops an automatic text classification model of traditional cultural contents based on the data of the Korean information culture field composed of systematic classifications of traditional cultural contents. This study applied TF-IDF model, Bag-of-Words model, and TF-IDF/Bag-of-Words combined model to extract word frequencies for 'Korea Traditional Culture' data. And we developed the automatic text classification model of traditional cultural contents using Support Vector Machine classification algorithm. 한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.