정보화 시대에서는 단순히 기존의 자료를 정리하고 기록한 문서나 자료의 수보다 컴퓨터나 스마트폰을 통하여 개개인이 생성해 내는 비정형 데이터의 수가 더욱 많고, 이는 날이 갈수록 더...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
정보화 시대에서는 단순히 기존의 자료를 정리하고 기록한 문서나 자료의 수보다 컴퓨터나 스마트폰을 통하여 개개인이 생성해 내는 비정형 데이터의 수가 더욱 많고, 이는 날이 갈수록 더...
정보화 시대에서는 단순히 기존의 자료를 정리하고 기록한 문서나 자료의 수보다 컴퓨터나 스마트폰을 통하여 개개인이 생성해 내는 비정형 데이터의 수가 더욱 많고, 이는 날이 갈수록 더욱 늘어나고 있다. 이에 따라 현재에는 무수히 많은 웹 문서나 SNS 혹은 뉴스 등의 비정형 자료에서 가치 있는 정보를 찾고자 하기에 이르렀다. 그 중에서도 자료에 포함되어 있는 단어들 간의 관계와 그 의미에 관한 연구가 많이 진행되었다.
연관성 분석에서는 데이터의 크기가 매우 크게 되면 최소지지도와 최소신뢰도를 설정하더라도 너무 많은 연관성 법칙이 생겨나게 되고, 그에 따라 해석에 어려움이 생기게 된다. 따라서 네트워크의 중심도가 높은 단어는 단어들 중에서 중심이 되고 중요한 단어가 되는 것에 착안하여, 네트워크의 중심도가 높은 단어들을 선별하여 분석하는 방법을 통해 적지만 의미 있는 연관성 법칙들을 유도하는 방법을 고안하게 되었다.
본 논문에서는 최근 이슈가 된 김영란법에 대한 키워드를 검색했을 때 사용되는 단어들의 관계가 특정 시점을 기준으로 시간이 지날 때마다 어떠한 변화가 있는지 보고자 한다. 이때 네트워크 분석과 연관성 분석을 이용하여 단어들의 관계를 파악하고, 그 중에서도 중심도가 높은 단어들 간에는 어떠한 연관성이 있는지 그 의미를 파악해 보려고 한다.
따라서 본 논문의 구성은 다음과 같다. 먼저 본론 1절에서는 웹에서 자료를 얻어내고 전처리하는 방법과 단어 문서 행렬로 정형화 하는 텍스트 마이닝의 방법을 소개하고, 2절과 3절에서는 특정 관계를 분석하는 기법인 네트워크 분석과 연관성 분석에 대해 차례로 설명한다. 4절에서는 2절과 3절에서 언급한 네트워크 분석과 연관성 분석을 함께 고려한 네트워크-연관성 분석에 대하여 언급한다. 마지막으로 5절에서는 네트워크 분석과 연관성 분석, 그리고 네트워크-연관성 분석을 이용하여 김영란법이 시행되기 전과 후의 시점들에 대해서 자주 검색되는 단어들과 검색된 단어간의 관계를 파악하고 비교하는 실증 분석을 진행하려고 한다.
다국어 초록 (Multilingual Abstract)
Network analysis is the process of investigating structures through the use of network and graph theories. It characterizes networked structures in terms of nodes (individual actors, people, or things within the network) and the edges, or links (relat...
Network analysis is the process of investigating structures through the use of network and graph theories. It characterizes networked structures in terms of nodes (individual actors, people, or things within the network) and the edges, or links (relationships or interactions) that connect them. Association analysis is a rule-based machine learning method for discovering interesting relations among items in large transaction databases. It is intended to identify strong rules discovered in databases using some measures of interestingness. However, it is possible to derive exponentially many association rules from large dataset. In this paper, we suggest network-association analysis combining the former with the latter to reduce exponentially many rules to derive smaller, but more meaningful rules. So, we reconstruct the term-document matrices using 10 words with high Page-rank centrality, and transform into transaction data to analyze network–association.
For real-data analysis, we apply this methodology for extracting association rules from Web contents about Kim Young-ran Act, which refers to the improper solicitation and graft act. For network-association rule finding, dataset of keywords related to the Act are collected using Web crawling. And then the data set of keywords are converted into term-document matrices. We are interested in finding the patterns of association rules on various time points.
목차 (Table of Contents)