최근 정부 및 공공기관에서는 데이터가 중요한 가치창출의 원천임을 인지하고 있다. 이에 정부에서는 현재 공공 데이터 대국민 공개 및 빅 데이터 마스터 플랜 구축 등의 지속적인 노력을 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T14890428
인천 : 인하대학교 공학대학원, 2018
학위논문(석사) -- 인하대학교 공학대학원 , 공간정보공학과 , 2018. 8
2018
한국어
006.312 판사항(21)
인천
Sentimental&Pattern Analysis of Environment Complaint by Big Data Mining
xi, 69 p. ; 26cm
인하대학교 논문은 저작권에 의해 보호받습니다.
지도교수:박수홍
참고문헌 : p.68-69
I804:23009-000000021826
0
상세조회0
다운로드최근 정부 및 공공기관에서는 데이터가 중요한 가치창출의 원천임을 인지하고 있다. 이에 정부에서는 현재 공공 데이터 대국민 공개 및 빅 데이터 마스터 플랜 구축 등의 지속적인 노력을 ...
최근 정부 및 공공기관에서는 데이터가 중요한 가치창출의 원천임을 인지하고 있다. 이에 정부에서는 현재 공공 데이터 대국민 공개 및 빅 데이터 마스터 플랜 구축 등의 지속적인 노력을 기울이고 있다. 한국행정연구원의 조사 자료에 따르면 시민들의 의식수준 향상에 따른 관심 증가와 더불어 도시발전이 빠르게 진행됨에 따라 민원이 급속도로 증가하고 있다. 그러나 민원은 매우 복합적이며 원인에 따라 다양한 특성을 가지고 있어, 발생 원인에 대한 규명과 해소방안에 대한 연구는 명확하지 않은 상황이다. 현재 환경 분야의 민원은 생태환경, 기후 대기환경, 물 환경, 폐기물, 환경보건 등과 같이 다양한 분야에서 발생하고 있으며 주로 문서(민원서류), 전화, SNS 등 다양한 형태로 접수되고 있다. 이렇듯 현재 개별 건 단위 민원접수에 대한 처리 결과는 단순한 게시판 형태로 공개 처리하고 있다. 하지만 이러한 게시글 형태의 데이터는 1차원적인 데이터로써, 민원 유형과 원인, 지역적 현황에 대한 종합적 분석에는 한계가 존재한다.
이에 본 연구에서는 방대하게 수집된 디지털 민원 텍스트 자료로부터 민원의 유형과 이슈를 추출하고 민원 간 연관관계를 정의하여 의미 있는 토픽을 제시할 수 있는 빅 데이터 분석방안을 제시하고자 하였다. 이를 위해 본 연구에서는 환경민원 빅 데이터를 활용하여 비정형 텍스트 마이닝 기법과 민원인의 감성 척도를 산정하기 위해 토픽 모델링과 감성분석을 실시하였다. 2016년 이후부터 2017년 상반기까지의 새올전자민원 데이터를 추출하여 민원 데이터에 대한 단어 사전을 구축하였으며 LDA(Latent Disrichlet Allocation) 알고리즘을 이용하여 민원 문장과 단어와의 관계 속에 주제문장을 분류하는 토픽 모델링을 수행하고, 마지막으로 민원 유형별 대표단어에 대한 감성 점수를 산정하여 공간분포를 제시하였다.
본 연구의 1장에서는 연구배경 및 필요성, 목적과 방법을 소개하였으며 2장에서는 이론적 배경과 선행연구에 대한 고찰을 작성하였다. 3장에서는 데이터 수집과 전처리 작업 후 토픽모델링에 대한 연구를 진행하였다.
3장의 연구내용은 다음과 같다. 먼저 민원 데이터 단어 사전 구축을 위해 2016.01.01.~2017.06.30. 기간 내 서울특별시 25개 구를 대상으로 새올전자민원창구 온라인민원상담 내용을 수집하였다. 즉 온라인민원상담 사이트에서 ‘환경’ 키워드로 검색 후 민원내용 웹 스크래핑(web Scraping)을 실시하고 빈도분석을 통한 민원 데이터 단어 사전을 구축하였다. 구축결과 공사, 소음, 쓰레기와 같은 키워드를 포함한 환경민원들이 높은 빈도를 차지하였으며 주민, 주변과 같은 일반적인 단어에 대해서도 단어 사전을 구축하였다. 토픽모델링이란 비교사(Non-training) 기계학습의 하나로 문장들의 코퍼스(corpus)에 내재되어 있는 화제(토픽)를 끌어내는 방법론이다. 환경민원들의 토픽(주제)을 도출하기 위해 토픽모델링을 사용하였으며 이를 위해 토픽을 찾아내어 문장을 분류할 수 있는 LDA(Latent Disrichlet Allocation) 알고리즘 적용하였다. LDA 알고리즘은 깁스샘플링 방식을 채택하므로 분류성공률이 높아 많이 사용되는 방법이며 본 연구에서는 이 알고리즘을 적용하기 위해 R의‘topicmodels’패키지와 ‘lda’패키지를 사용하여 구현하였다.
4장에서는 환경민원 빅 데이터의 감성분석 및 공간패턴 분석을 하였다. 4장에서 감성분석을 위해 사용한 헤도노미터(Hedonometers) 점수는 트위터 데이터를 이용해 사용자들의 행복도를 측정할 수 있는 분석 툴로 미국 버몬트(Vermont)대학 연구팀 개발한 것이다. 개별 단어들의 행복 점수를 기준으로, 매일 5,000만 개의 트윗을 추출하여 데이터베이스상의 단어들과 매칭 시키는 작업을 통해 점수를 측정한 것이다. 이에 본 연구에서도 헤도노미터 기준을 사용하여 토픽 단어에 대한 매칭 분석을 실시하고, 유형별 대표단어에 대한 순위와 점수를 산출하였으며 모든 단어의 점수는 가장 낮은 1점부터 가장 높은 9점 사이에 존재하도록 하였다. 산출한 점수를 토대로 민원 내용에 출현하는 단어별 빈도수를 이용하여 환경민원 감성점수(EC_Score, Environment Complaint Score)라는 점수를 정의하였으며 이 점수를 이용하여 각 민원 별 감성점수를 산출하였다. 이 감성점수는 환경민원의 토픽별 심각성과 우선순위를 위한 수치이다.
환경민원의 경우 발생 원인에 대한 근본적인 시공간적인 현상 분석이 동반되어야 적합한 해소방안과 예방을 위한 민원 행정의 기초자료로 활용 될 수 있다. 이에 산정된 감성점수의 공간적 패턴을 분석하였으며 환경민원은 민원이 발생한 지점 뿐 만 아니라 주변 지역에도 영향이 있을 것이므로 공간적 패턴을 분석하였다. 토픽모델링의 결과로 환경민원을 크게 ‘공사/소음’, ‘건축심의’, ‘도시미관’, ‘생활편의’, ‘안전단속’ 과 같이 5개의 토픽으로 구분 할 수 있었으며 감성분석을 통해 각각의 민원에 대해 환경민원 감성점수(EC_Score, Environment Complaint Score)를 부여하였고 토픽별 환경민원 감성점수의 공간적 분포를 확인할 수 있었다.
본 연구결과는 민원정보의 유형화와 감성 분석을 통해 민원 정보의 가치를 극대화하고, 민원에 대한 선제적 대응체계를 구축할 수 있을 것이며 시민의 소리를 파악하여 적합한 해소방안을 모색하고 예방할 수 있도록 하는 등 환경민원 처리를 위한 우선순위 도출과 지역적인 환경지표와 환경관리시설 및 규제성 등 관련 분야의 정책 수립 기초 자료로 활용될 수 있을 것으로 생각된다.
다국어 초록 (Multilingual Abstract)
Recently, governments and public institutions have recognized that data is a source of significant value creation. The government is currently making efforts to publicize public data and build a big data master plan. According to the survey data of th...
Recently, governments and public institutions have recognized that data is a source of significant value creation. The government is currently making efforts to publicize public data and build a big data master plan. According to the survey data of the Korean administrative research institute, civilization is rapidly increasing as the urban development is rapidly progressed along with the increase of interest due to the improvement of citizens' consciousness level. However, complaints are very complex and have various characteristics depending on the cause. Therefore, it is not clear how to identify the cause of the occurrence and how to solve it. Currently, civil complaints in the field of environment are occurring in various fields such as ecological environment, climate air environment, water environment, waste, environmental health, etc. and they are received in various forms such as civil documents, telephone and SNS. As a result, the results of the process of accepting individual civil complaints are now publicly posted in the form of simple bulletin boards. However, this type of bulletin data is one-dimensional data, and there is a limit to the comprehensive analysis of the types of civil complaints, causes and local conditions.
In this thesis, we propose a big data analysis method that can extract meaningful topics by extracting types and issues of complaints from digital collective texts collected and collecting complaints. In this study, we conducted topic modeling and emotional analysis to estimate atypical text mining techniques and civilian emotional scales using environmental data. Topic modeling that classifies topic sentences in relation to civil application sentences and words by using LDA(Latent Disrichment Allocation) algorithm is constructed by extracting data of petition application from 2016 to 2017, Finally, the spatial distribution is presented by calculating emotional scores for the representative words by civil application type.
Section 1 introduces the background, necessity, purpose and method of this study. Section 2 describes the theoretical background and previous studies. In Chapter 3, we studied about topic modeling after data collection and preprocessing.
The research contents of Chapter 3 are as follows. First, for the construction of the complaint data word dictionary, 2016.01.01. ~ 2017.06.30. During the period, the contents of consultation for online application were collected from 25 districts of Seoul Metropolitan City. In other words, web scraping of civil complaints was conducted using the keyword 'environment' in the online complaint counseling site, and complaint data word dictionary was constructed through frequency analysis. As a result of construction, environmental complaints including keywords such as construction, noise, and garbage took a high frequency, and a word dictionary was constructed for common words such as residents and surrounding people. Topic modeling is a method of extracting topics that are embedded in the corpus of sentences as part of non-training machine learning. We used topic modeling to derive topics of environmental complaints. We applied LDA(Latent Disrichment Allocation) algorithm to find out topics and classify sentences. Since LDA algorithm adopts Gibbs sampling method, it is widely used because it has high classification success rate. In this study, we implemented it using R 'topicmodels' package and 'lda' package to apply this algorithm.
In Chapter 4, emotional analysis and spatial pattern analysis of environmental data were conducted. In Section 4, the Hedonometers score used for emotional analysis was developed by Vermont University research team as an analysis tool that can measure users' happiness using Twitter data. Based on the scores of happiness of the individual words, the score is measured by extracting 50 million tweets everyday and matching them with words in the database. In this study, we also conducted a matching analysis on topic words using the hedonometer standard, and calculated the ranking and scores of representative words by type. The scores of all words were between the lowest point 1 and the highest point 9 . Based on the scores, the score of EC_Score(Environment Complaint Score) was defined using frequency of words appearing in the contents of civil affairs. This emotional score is a measure of the level and priority of environmental complaints.
In the case of environmental civil complaints, it should be accompanied by fundamental temporal phenomenon analysis on the cause of occurrence, and it can be used as a basic data of the civil service administration for proper solution and prevention. The spatial patterns of the emotional scores were analyzed and the spatial patterns were analyzed because the environmental complaints would affect not only the points where the complaints occurred, but also the surrounding areas. As a result of topic modeling, environmental complaints can be divided into five topics such as 'construction/noise', 'architectural deliberation', 'city aesthetics', 'life style', 'safety interception' The EC_Score(environmental complaint score) was given to the complaints, and the spatial distribution of the environmental complaint sensitivity score per topic was confirmed.
The result of this study is to maximize the value of civil petition information through the typification of the petition information and emotional analysis, to build a preemptive response system for the petition, to identify the voice of the citizen, And environmental management facilities and regulatory environment. The results of this study can be summarized as follows.
목차 (Table of Contents)