http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
홍정수,유종욜,양동민 大田大學校 産業技術硏究所 2015 산업기술연구소 論文集 Vol.26 No.2
Recently, an enormous amount of data is created from digital society. This data exists in various forms, such as documents, e-mail or SMS messages, which are common to us. However, many internet users and companies suffer from malicious security threats such as confidential cument leak, spam mails and malware. To prevent these problems, it is necessary to classify documents with echniques further improved. Document classification technique is achieved through two processes. The first step is to extract feature points, and the second one is to classify documents using them. As the first step, we describe the feature extraction algorithms such as TF-IDF(Term Frequency–Inverse Document Frequency Weighting), Apriori, MI(Mutual Information), FP (Frequent Pattern)-growth. As a next step, we introduce Naïve Bayesian Classifier and SVM(Support Vector Machine). Finally, we propose a novel model which extracts the feature points suitable to characteristics 최근 디지털 사회에는 엄청난 양의 데이터들이 만들어진다. 이러한 데이터는 문서, 메일, 문자메시지 등 다양한 형태로 존재한다. 문서, 메일, 문자 메시지 등은 일상생활에서 쉽게 접할 수 있다. 하지만 중요문서 유출, 스팸메일, 스팸메세지 등 악용되는 사례도 발생한다. 이러한 문제점을 예방하기 위해서는 기존보다 더 향상된 문서 분류기술이 필요하다. 문서 분류 기술은 문서의 특징점을 추출하는 기술과 추출된 특징점을 바탕으로 문서를 분류해내는 두 단계로 이루어진다. 본 논문에서는 문서 분류기에서 활용되는 특징점 추출 기법 중 TF-IDF(Term Frequency Weighting–Inverse Document Frequency Weighting), Apriori, MI(Mutual Information), FP(Frequent attern)-growth 알고리즘을 대상으로 하여 연구한다. 문서 분류기는 Naïve Bayesian Classifier와 SVM(Support Vector Machine)분류기를 연구한다. 앞선 연구를 토대로 문서 분류기의 특성에 적합한 특징점 추출기법을 적용하는 모델을 제안한다.