RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        데이터 기반 사용자 여정 분석 도구 UX 디자인 개선 방안 제안 ­뷰저블 애널리틱스(Beusable Analytics)를 중심으로­

        정지현,김서연,박민희,이지현 인제대학교 디자인연구소 2022 Journal of Integrated Design Research (JIDR) Vol.21 No.4

        Background : With the recent growth of big data and the advancement of data analytics, the importance of data-informed UX design is being highlighted. As the need for more sophisticated analyses on user needs and behavior patterns, a great variety of analysis methods were developed. But, there is a lack of study that focuses on detailed data exploration and analysis based on interaction designs that implement such concepts for the moment. Methods : Beusable Analytics, data-informed user journey analysis tool in South Korea, as a research subject to improve user experience based on data analysis. First, this study conducted literature review to understand about the User Journey Map, Funnel Analysis, Data Visualization types and Flow factors for Data Analytics. data visualization types and interaction methods of data informed user journey analysis tools were analyzed. Afterwards, expert evaluation was conducted, and major problems and design improvements were proposed by analyzing the evaluation contents and measuring priorities. Results : Finally, four improvements were proposed as wireframe and key path scenario to improve the ‘limitation of the overall view of the entire journey', ‘lack of storytelling of the journey’, ‘Difficulty in recording and interpreting data‘ and ‘difficulty in identifying variability'. Conclusion : This study proposes ways to improve user experience by considering User Experience such as UI (User Interface) and Interaction for UX designers who want to derive insights by analyzing user journey data. Analysis results of user journey analysis tools and expert evaluations are meaningful in that they confirmed the behavioral patterns and functional requirements of practical UX designers during data analysis. It is expected to be used as a useful resource for the usefulness of the existing user journey analysis tool has been improved through the design improvement plan, and it is expected to be applied and used as an additional function of the user journey analysis tool that provides not only viewable analytics but also funnel analysis. 연구배경 : 최근 빅데이터 관련 기술의 성장과 데이터 분석 솔루션의 고도화로 인해 데이터 기반 UX 디자인의 중요성이 더욱 크게 부각되고 있다. 고객의 니즈와 행동 패턴의 정교한 분석이 점점 더 중요해지며, 다양한 분석 방식이 개발되었지만 국내에서는 아직까지 이를 구체화한 분석 도구의 개발과 인터랙션 디자인 기반 데이터 탐색 및 분석에 초점을 맞춘 연구는 미비한 실정이다. 연구방법 : 본 연구는 데이터 기반 사용자 여정 분석 도구의 사용자 경험 향상을 위한 디자인 개선 방안을 제안하고자 상용화되어 있는 사용자 여정 분석 도구 중 국내 서비스인 뷰저블 애널리틱스(Beusable Analytics)를 연구 대상으로 선정하였다. 우선 문헌 연구를 통해 사용자 여정 지도와 퍼널 분석에 대해 파악하고, 국내외 사용자 여정 분석 도구의 데이터 시각화 유형 및 데이터 분석을 위한 인터랙션 방식에 대해 분석하였다. 전문가 평가를 진행하여 뷰저블 애널리틱스의 사용성을 진단하고, 평가 내용 분석과 우선순위를 측정하여 주요 문제점과 디자인 개선 사항을 제안하였다. 연구결과 : 결과적으로 ‘여정 전체 조망의 한계’, ‘여정의 스토리텔링 전달 부족’, ‘데이터 기록 및 해석의 어려움’, ‘변동성 파악에 대한 어려움’ 총 4가지 주요 문제점과 디자인 개선 사항의 와이어프레임(Wireframe)과 핵심 경로 시나리오(Key path scenario)를 제안하였다. 결론 : 본 연구는 웹 페이지 내 사용자 여정 데이터를 분석하여 인사이트를 도출하고자 하는 IT 실무자가 효율적으로 데이터를 탐색하기 위한 UI(User Interface) 및 인터랙션(Interaction) 등의 사용자 경험적 측면을 고려하여 경험 향상 방안 제안을 목적으로 진행되었다. 전문가 평가 분석 자료와 상용화 되어 있는 사용자 여정 분석 도구의 시각화 방식 및 인터랙션 측면의 분석 결과는 데이터 분석 시의 실무 UX 디자이너와 기획자의 행동 패턴과 기능 요구사항을 확인하였다는 것에 의의가 있으며, 동료 연구자들에게 유용한 자료로 활용될 것으로 기대된다. 또한, 디자인 개선안을 통해 기존 사용자 여정 분석 도구의 유용성을 높였으며, 이는 뷰저블 애널리틱스뿐만 아니라 퍼널 분석 등을 제공하는 사용자 여정 분석 도구의 발전방향 수립 시 참고할 수 있을 것으로 기대한다.

      • KCI등재

        빅데이터 분석 방법을 활용한 한시 영향관계 분석을 위한 시론

        이병찬(Lee Byong-chan) 어문연구학회 2017 어문연구 Vol.94 No.-

        현재 한시연구는 작품의 자구 하나는 물론 그 사이 행간의 의미까지 세밀하게 해석하는 방식으로 이루어지고 있다. 이는 많은 시간을 요하며 따라서 한정된 작품에 국한하여 연구를 진행할 수밖에 없다. 작가 개인에 대한 연구는 동시대 혹은 전후시대의 문학들과 연관성이 함께 언급될 때 더욱 의미와 가치를 지닌다. 즉 타자와의 영향이나 차별성이 문학사적 의의를 고구하는 중요한 가치척도이다. 그러므로 연구범주를 설정함에, 특정 몇몇을 대상으로 하는 것보다 비교군이 많을수록 그 성과가 의미를 가진다. 이 때문에 연구는 방대한 자료 분석을 기반으로 이루어져야 한다. 그러나 이는 한 개인의 역량으로 불가능한 일이다. 방대한 자료를 분석하는 연구방법의 미비로 인하여, 연구가 다수의 인물이나 작품을 함께 포괄하는 전반적이고 체계적인 분석에 이르지 못하고 있다. 따라서 연구가 결국 연구자 의 연구목적에 의해 미리 한정한 문헌들만을 대상으로 이루어질 수밖에 없는 실정이다. 이러한 문제를 해결하기 위한 방법이 바로 빅데이터 분석이다. 많은 문헌의 처리와 분석이 가능한 빅데이터 분석 방법을 도입한다면 이전에는 시도하지 못했던 개인들의 어휘사용 특성이나 패턴은 물론, 문집들의 상관성과 상호간의 거리, 혹은 고문진보(古文眞 寶)나 두시(杜詩)와의 비교 분석을 통하여 중국 시인들이 우리나라 문인들에게 준 영향의 심도에 대한 수치적 계량화나 구체적 실상에 대한 분석도 가능하다. 그러나 현시점에서 우리가 한문학 자료의 빅데이터 분석을 통하여 얻을 수 있는 결과는 제한적일 수밖에 없다. 한국고전종합DB라는 자료가 확보되어 있으며, 빅데이터 분석 기술 이 발전하고 여러 방면에 응용되고 있지만 실제로 분석 기술을 사용하는데 많은 어려움이 있다. 왜냐하면 빅데이터 분석은 대상 데이터의 가공 여부, 분석의 도구로 사용되는 기초 자료의 확충과 정리, 분석 전문가인 프로그래머와 결과를 활용하고자 하는 한문학 전공자의 정확한 소통과 같은 전제 조건이 충족되지 않는다면 원하는 결과를 얻을 수 없기 때문이다. 본 연구는 이와 같이 제한된 조건임에도 조선 중기의 한시 중 일부를 대상으로 텍스트와 주제어 유사성 분석을 시도하였다. 그리고 수치화하여 도출한 결과가 기존 방식으로 나온 연구 결과, 혹은 일반적인 추론과 어긋나지 않음을 확인하여 빅데이터 분석의 유효 성을 입증하였다. 앞으로 본 연구에서 제시한 그 한계와 문제점을 개선하여 빅데이터 분석을 기반으로 한 연구가 활성화되기를 기대한다. A study on artist individual has more meaning and value when mentioned with the relations with literatures of same period or the post-war period. In other words, differentiation from others is an important measure of value investigating the meaning of literature history. Therefore, the range of research is not a few particular objects and as comparison is more, the outcomes are significant. Therefore, the study must be conducted based on the analysis on massive materials. But, it s impossible with individual capabilities. Because of the insufficient research method to analyze massive materials, the study cannot approach general and systematic analysis including many persons or works together. Therefore, the study cannot help being organized by research purpose of researcher and conducted for only limited literatures. The method to solve the problem is rightly big data analysis. If introducing big data analysis that can treat and analyze lots of literatures, it s possible to measure influence of Chinese poets on our scholars numerically and analyze concrete realities through characteristics or patterns of individual vocabularies that were not tried before, correlations and mutual distance of literature collections, and comparative analysis of gomunjinbo (古文眞寶) or two poems. However, the results of big data analysis of Chinese literature data are restricted at present. Data of Korean classics DB is secured and mention about the possibility of big data analyzing technology is increased. It is tried from several angles, but there are difficulties in using analyzing technology actually. Big data analysis cannot provide desired results if preconditions such as process of objective data, securing and arrangement of basic data used as a tool of analysis, persons majoring in Chinese literature who intend to utilize the results with analytic specialist, programmer, and accurate communication and so on are not satisfied. This research digitized and drew the results through analysis on texts, topic words and similarities for Chinese poems of the middle stage of Joseon in spite of restricted conditions. Therefore, it was confirmed to be same as research results or general inference brought by existing methods. It means that methodological validity utilizing big data analysis to following researches was secured. In the future, the restrictions and problems of this research should be improved and researches based on big data analysis should be vitalized.

      • KCI등재

        빅데이터의 효과적인 처리 및 활용을 위한 클라이언트-서버 모델 설계

        박대서(Dae Seo Park),김화종(Hwa Jong Kim) 한국지능정보시스템학회 2016 지능정보연구 Vol.22 No.4

        Recently, big data analysis has developed into a field of interest to individuals and non-experts as well as companies and professionals. Accordingly, it is utilized for marketing and social problem solving by analyzing the data currently opened or collected directly. In Korea, various companies and individuals are challenging big data analysis, but it is difficult from the initial stage of analysis due to limitation of big data disclosure and collection difficulties. Nowadays, the system improvement for big data activation and big data disclosure services are variously carried out in Korea and abroad, and services for opening public data such as domestic government 3.0 (data.go.kr) are mainly implemented. In addition to the efforts made by the government, services that share data held by corporations or individuals are running, but it is difficult to find useful data because of the lack of shared data. In addition, big data traffic problems can occur because it is necessary to download and examine the entire data in order to grasp the attributes and simple information about the shared data. Therefore, We need for a new system for big data processing and utilization. First, big data pre-analysis technology is needed as a way to solve big data sharing problem. Pre-analysis is a concept proposed in this paper in order to solve the problem of sharing big data, and it means to provide users with the results generated by pre-analyzing the data in advance. Through preliminary analysis, it is possible to improve the usability of big data by providing information that can grasp the properties and characteristics of big data when the data user searches for big data. In addition, by sharing the summary data or sample data generated through the pre-analysis, it is possible to solve the security problem that may occur when the original data is disclosed, thereby enabling the big data sharing between the data provider and the data user. Second, it is necessary to quickly generate appropriate preprocessing results according to the level of disclosure or network status of raw data and to provide the results to users through big data distribution processing using spark. Third, in order to solve the problem of big traffic, the system monitors the traffic of the network in real time. When preprocessing the data requested by the user, preprocessing to a size available in the current network and transmitting it to the user is required so that no big traffic occurs. In this paper, we present various data sizes according to the level of disclosure through pre - analysis. This method is expected to show a low traffic volume when compared with the conventional method of sharing only raw data in a large number of systems. In this paper, we describe how to solve problems that occur when big data is released and used, and to help facilitate sharing and analysis. The client-server model uses SPARK for fast analysis and processing of user requests. Server Agent and a Client Agent, each of which is deployed on the Server and Client side. The Server Agent is a necessary agent for the data provider and performs preliminary analysis of big data to generate Data Descriptor with information of Sample Data, Summary Data, and Raw Data. In addition, it performs fast and efficient big data preprocessing through big data distribution processing and continuously monitors network traffic. The Client Agent is an agent placed on the data user side. It can search the big data through the Data Descriptor which is the result of the pre-analysis and can quickly search the data. The desired data can be requested from the server to download the big data according to the level of disclosure. It separates the Server Agent and the client agent when the data provider publishes the data for data to be used by the user. In particular, we focus on the Big Data Sharing, Distributed Big Data Processing, Big Traffic problem, and construct the detailed module of

      • 환경 빅데이터 분석 및 서비스 개발 Ⅳ

        강성원,진대용,홍한움,고길곤,임예지,강선아,김도연 한국환경정책평가연구원 2020 사업보고서 Vol.2020 No.-

        Ⅰ. 서론: 연구의 필요성 및 목적 ❏ 정책수요 파악, 정책 시의성 평가, 정책 유효성 평가에 사용할 수 있는 ‘환경정책 모니터링 시스템(가칭)’ 구축 ㅇ 환경정책 모니터링 시스템: 기계학습의 장점인 예측의 정교함 및 실시간 데이터 수집-분석-결과 갱신 가능성을 환경정책 연구에 접목 ㅇ 환경오염 통합예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터베이스 3개 분석도구로 구성 - 환경오염 통합예측: 다양한 환경오염물질 오염도 예측 주기적 반복 - 실시간 환경 텍스트 분석: 환경 텍스트 정보추출 및 감성분석 주기적 반복 - 질문중심 데이터베이스: 주요 환경이슈 목록 - 이슈 관련 데이터 분석을 연계하여 주기적으로 결과 실시간 업데이트 ㅇ 정책수요 파악: 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악 ㅇ 정책 시의성 평가: 민간 텍스트 분석 결과와 환경정책 생산자 텍스트 분석 결과를 비교하여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부를 진단 ㅇ 정책 유효성 평가: 환경오염 예측 알고리즘의 정책 시행 전 예측치와 시행 후 실측치, 정책시행 전후 질문중심 데이터맵 분석 결과, 정책시행 전후 민간 텍스트 감성분류 결과 비교 ❏ 2020년 연구목표: ‘환경정책 모니터링 시스템’ 의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구내용을 확장 ㅇ 1기 (2017~2019년) 연구의 성과를 계승하면서 기계학습 방법론의 약점인 모형의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구 확장 - 1기 ‘기계학습 방법론’ 적용 연구 → 2기 ‘대용량 데이터’를 이용한 환경정책 연구 - 방법론: 1기 ‘기계학습’ → 2기 기계학습 + 전통적 통계학 기법(Frequentist/Bayesian) ㆍ모형의 단순화: 개별 변인이 분석 결과에 미치는 영향력 분석 기능 강화 ㆍ중장기 예측이 가능한 연구, 인과분석이 가능한 연구 추구 ❏ 연구내용: 환경정책 모니터링 시스템 구성요소 연구 4건, 개별연구 2건 수행 ㅇ 환경정책 모니터링 구성요소: 기존 구성요소의 방법론 및 분석 대상 확대 - 환경오염 예측 (2건): ‘미세먼지 고농도 현상 발생확률 추정’/‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’ - 환경 텍스트 분석: ‘환경 텍스트 감성 분석기 구축 및 활용’ - 질문 중심 데이터베이스: ‘기후변화 이슈 분석 및 질문중심의 데이터맵 도출’ ㅇ 개별연구: 수용체 연구 1건, 신재생에너지 연구 1건 추진 - 수용체 연구: ‘대기오염이 COPD 환자 사망에 미치는 영향’ - 신재생 에너지 연구: ‘태양광 발전 발전량 예측 알고리즘 구축’ Ⅱ. 미세먼지 고농도 현상 발생확률 추정 ❏ 서울지역 25개 측정소 초미세먼지 오염도가 ‘매우 나쁨’(76 이상)이 될 경우를 예측하는 Qunatile Regression 기반 통계모형 개발 ㅇ Qunatile Regression 모형을 Extreme value가 많은 자료에 적합하게 조정 - Extreme Conditional Qunatile Regression Model + Variable Selection (LASSO) ❏ 서울시 대기질 및 기상 정보를 이용하여 2015~2020년 봄 4시간 평균(1일 6개 시간대) PM<sub>2.5</sub> 오염도 예측 ㅇ 설명변수: 동시간대 및 1시간 이전 CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> 오염도, 강수량, 온도, 습도, 풍향, 풍속/1시간 이전 PM<sub>2.5</sub> 오염도 ㅇ 2015/01/01~2018/03/04 자료로 추정한 모형으로 2018/03/04~2020/05/29 예측 ❏ 측정소에 따라 Sensitivity 88.9%~100.0%을 달성하면서 False Positive는 6.0% ~17.1%로 억제 ㅇ Sensitivity = 매우 나쁨 예측/실제 매우 나쁨, False Positive = 매우 나쁨 예측/실제 나쁨 이하 측정 ㅇ 강동구(88.9%)를 제외한 24개 측정소에서 Sensitivity 90% 이상 ❏ RandomForest, Supporting Vector Machine, GRU 대비 11.3%p Sensitivity 향상 ㅇ 강서구 예측의 Sensitivity RandomForest(65%) < SVM(73.3%) < GRU(81.0%) < 본 연구 구축 모형(92.3%) ❏ 동시간대 CO 오염도, O<sub>3</sub> 오염도, PM<sub>10</sub> 오염도, 풍향, 1기 전 초미세먼지 오염도가 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 증가하는 경향 발견 ❏ 동시간대 강우량 및 풍속, 1기 전 강수량 및 풍속이 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 하락하는 경향 발견 Ⅲ. Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측 ❏ PM2.5 농도에 영향을 미치는 기상 및 공간정보 데이터를 반영하는 Graph-GRU 알고리즘 개발 ㅇ 과거 정보(temporal data)와 공간정보(spatial data)를 함께 활용할 수 있는 3차원 학습데이터세트 구축 - 예측대상: 남한지역 측정소 포함 0.125° × 0.125° Grid (12.5km × 12.5km)의 3-Hour PM<sub>2.5</sub> 오염도 평균값 - 입력자료: 대기오염 오염도, 기상, 고도 ㆍtraining set: 2015/01/01~2015/12/31 ㆍvalidation set: 2016/01/01~2016/12/31 ㆍtest set: 2017/01/01~2017/12/31 ㅇ 알고리즘: Graph - GRU 알고리즘 활용 - Node attribute: 기상 및 지리정보, 대기오염 - Edge attribute: 측정소 간 미세먼지 오염물질 배출량의 영향 ㆍ거리, 풍속, 풍향을 반영한 ‘영향’ 평가 함수 적용 - Adjacency Matrix: 거리: 300km, 고도: 1200m 미만 threshold 값 설정 ❏ 3시간~72시간 이후 표준제곱근오차 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup>로 억제 ㅇ 과거 정보 표준제곱근오차 축소 효과는 0.12μg/m<sup>3</sup>, 공간정보 표준제곱근오차 축소 효과는 0.16μg/m<sup>3</sup> Ⅳ. 환경 텍스트 감성분류기 구축 및 활용 ❏ 환경 SNS 데이터 수집 - 감성분석 - 결과 발신을 주기적으로 반복하는 ‘환경 텍스트 감성분류기’ 구축 ㅇ 2018~2019년 개발 기후변화 감성분류기를 환경 전 분야로 확장-준지도 학습을 이용하여 수집한 학습 데이터 14만 건을 추가하여 감성분류 정확도 제고 ㅇ 감성분류 결과의 추이를 시각화 하여 확인할 수 있는 web 기반 user interface 제공 ❏ 준지도 학습을 이용하여 학습 데이터를 기존 5만 건에서 18만 건으로 확대하여 감성 분류 정확도 제고 ㅇ 학습데이터 추가: 환경 SNS 텍스트 650만 건을 수집하고 기존 기후변화 감성분류기에 적용하여 긍정/부정 확률이 매우 높은 자료 14만 건을 추출 ㅇ 성능 향상: 기존 data 분류 정확도 1%p(78.7% → 79.7%) 향상 ❏ 환경정책 분야별 감성분류 Precision 66%~92%, Recall 73%~81% 달성 ㅇ Precision = 실제 부정/부정 판정, Recall(Sensitivity) = 부정 판정/실제 부정 ㅇ 폐기물 분야는 Precision, Recall이 모두 낮아서 지도학습을 통한 정확도 제고 필요 ❏ 기간, 검색어를 특정하여 구분한 SNS 데이터의 감성분류 결과를 실시간으로 확인할 수 있는 web 기반 user interface를 구축 ㅇ ‘부정’ 감성의 SNS 데이터로부터 키워드 빈도 및 네트워크를 추출하여 ‘부정’ 감정의 원인을 파악할 수 있는 기능을 부여 Ⅴ. 기후변화 이슈 분석 및 질문중심의 데이터맵 도출 ❏ 위계별로 정리한 기후변화 이슈와 각 이슈 관련 데이터 분석을 연계하고 데이터 분석 결과를 실시간으로 업데이트 하는 데이터맵 구축 ㅇ 텍스트 분석에서 이슈를 도출하는 이슈 선정 모듈과 데이터를 연계하는 데이터 분석 모듈을 구축 ❏ 이슈 선정 모듈: 기후변화 관련 텍스트 수집 → 주제 추출 → 질문 식별 → 질문 구조화 수행 ㅇ 텍스트: 2012~2019년 연구보고서/고위공직자 연설문/보도자료/국회회의록 /국회기후변화포럼/Dbpia논문 국문 초록/네이버 신문(12개 일간지) ㅇ 주제추출: 상관토픽모형(CTM)을 사용한 10개 주제식별 및 주제 간 관계 도출 ㅇ 질문식별: 텍스트 랭크(TextRank)로 추출한 중요 문장을 정제하여 개별 질문 도출 ㅇ 질문 구조화: 개별 질문을 주제에 할당하고 주제 간 관계를 반영하여 질문을 구조화 - 주제 간 관계: 상관토픽 모델링 상관계수, 동적 시간 와핑(dynamic time warping) 시계열 패턴 유사도, 전문가 설문조사 반영 - 5개 범주로 재분류: 기후변화 공동대응/기후변화 적응/온실가스 감축/에너지와 환경/도시환경과 시민 ❏ 데이터 분석 모듈: 명제화 된 이슈에 대한 정보를 제공할 수 있는 data source와 분석모형 연계 ㅇ 관련 자료의 실시간 update가 가능하도록 자료 원천과 직접 연계하는 방식을 사용 ㅇ 시계열 자료의 절대 추세 및 계절변동 조절 추세 분석 Ⅵ. 대기오염이 COPD 환자 사망에 미치는 영향 ❏ 사망 전 1년, 5년 간 대기오염 노출이 COPD 환자 사망위험에 미치는 영향 분석 ㅇ 분석대상: 2009~2018년 전국 40세 이상 COPD 환자 ㅇ 분석기법: Kriging과 Cox Proportional Hazard model - Kriging을 사용하여 측정소 오염도 자료로부터 읍면동 오염도 추정 ❏ 국민건강보험공단 맞춤형 DB와 대기오염 측정 데이터를 결합하여 데이터 생성 ㅇ 환경오염 관련 독립변수: event 발생/종료 1년 전, 5년 전 거주지 평균 PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> 오염도 - PM<sub>10</sub>: 일평균, O3: 일별 최고 8시간 평균, NO<sub>2</sub>: 일평균 (O<sub>3</sub>, NO<sub>2</sub>의 경우 ppb를 ㎍/m3으로 변환) ㅇ 개인 특성 관련 독립변수: 성별, 연령, 소득, 동반질환지수, COPD 외래중증악화, BMI, 흡연 ㅇ 종속변수: 사망을 1, 생존을 0으로 표기한 사망 여부 ❏ 사망 전 1년, 5년 간 O<sub>3</sub> 오염도가 높은 지역에서 산 COPD 환자는 사망위험이 소폭 증가하였음을 확인 ㅇ Hazard Ratio of O<sub>3</sub>: 1.003(1년), 1.004(5년) Ⅶ. 딥러닝 기반 태양광발전량 예측 ❏ 기상정보를 활용하여 영암 F1 발전소 태양광발전량 예측 LSTM 알고리즘 개발 ㅇ 1시간, 12시간 평균 낮 시간대 발전량을 예측: 주기성이 심한 비정상(non-stationary) 시계열 ❏ 1시점 이전 태양광발전량 및 기상정보를 입력자료로 사용 ㅇ 기상정보: 목포 기상관측소 시간별 기온, 강수량, 습도, 일사량, 전운량 ㅇ 2017.1.1~2019.6.30 자료 중 2017.1.1~2018.6.30 자료를 학습자료로 사용하여 모형을 추정하고 2018.7.1~2019.6.30 자료를 예측 ❏ RNN 기반 LSTM 알고리즘을 사용하여 모형을 구축하고 직전 3시점 이동평균(Moving Average) 및 ARIMA 모형과 예측력 비교 ❏ 1시간 예측 평균제곱근오차를 표준편차의 36.9%, 12시간 평균 예측 평균제곱근오차는 표준편차의 51.1%로 억제 ㅇ 직전 3시점 이동평균 예측오차/표준편차의 71%, ARIMAX 예측오차/표준편차의 45% 수준으로 예측오차/표준편차를 억제 Ⅷ. 연구성과 및 정책적 시사점 ❏ 연구성과: 환경정책 모니터링 시스템 구성요소 구축 및 신규 성과 축적 ㅇ 환경오염 종합예측 시스템 구성요소 확대 및 심화 - 환경오염 종합예측 알고리즘: 설명 가능성을 보완하고 예측 시차를 연장하여 활용 가능성을 제고 ㆍ‘미세먼지 고농도 발생확률 추정’: coefficient estimation이 가능하면서 예측성과가 Deep Learning 모형과 경쟁력 있는 Quantile Regression 모형을 개발 ㆍ‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’: 12시간 예측오차를 2019년 개발 CNN 기반 모형의 1시간 예측오차와 유사한 7.64g/m<sup>3</sup>로 유지 - 실시간 환경 텍스트 분석 알고리즘: 환경 전 분야 실시간 SNS 감성 분석 및 부정 감성 원인 분석 가능 - 질문중심 데이터맵: 미세먼지에 이어 기후변화로 적용 범위를 확대 - 정책 현황 파악 상황판 기능 ㅇ 3개 알고리즘, 1개 질문중심 데이터맵 신규 구축 - 초미세먼지 고농도 현상 예측 Quantile Regression 모형, 초미세먼지 오염도 예측 Graph-GRU 모형, 태양광발전량 예측 RNN 모형/기후변화 Data Map ㅇ 텍스트 분석 인프라 확장: 실시간 환경 텍스트 분석 Web Interface 개발 ❏ 정책적 시사점: 환경정책 모니터링 기능을 강화하였고 대기오염 건강위험을 정량화하였으며 신재생에너지 발전 인프라의 기초를 제공 ㅇ 환경정책 모니터링 기능 강화: 정책 현황 파악 및 선제적 정책개입 관련 정보 제공 기능 강화 - 실시간 환경 텍스트 분석: 국민 감성이 부정적인 환경정책 분야를 실시간으로 파악 가능 - 기후변화 질문중심 데이터맵: 기후변화 현황 실시간 파악 기능 제공 - ‘기후변화 상황판’ 기능 - 초미세먼지 오염도 예측의 시차를 연장하고 기초적 인과분석 기능 확보 ㆍGraph-GRU 모형: 예측 시차를 연장하여 선제적 정책 개입이 가능한 시차를 확보 ㆍQuantile Regression 모형: 향후 오염원 및 정책 관련 Data를 추가하면 정책영향 분석 도구로 활용 가능 ㅇ 대기오염 장기노출의 건강위험을 정량화 하여 대기오염 억제정책의 정량적 편익 도출 근거 마련 ㅇ 태양광발전량 예측 기능을 강화하여 신재생에너지 발전에 필요한 스마트 그리드 구축 인프라 제공 Ⅰ. Background and Aims of Research ❏ We continue to build up ‘Environmental Policy monitoring System’ dedicated to periodically identify environmental policy needs and assess timeliness and effectiveness of environmental policy as we did last year ㅇ Environmental Policy monitoring System apply prediction accuracy and real-time data collection-analysis-diffusion capability of Machine learning to environmental policy research ㅇ Our ‘Environmental Policy monitoring System’ consists of three components: ‘Deep Learning Based Pollution Prediction algorithm’, ‘Real Time Environmental Text Analysis algorithm’, ‘Issue Based Database’ - Deep Learning Based Pollution algorithm: Periodically update various pollution prediction - Real Time Environmental Text Analysis algorithm: Periodically summarise environment related text data and sentiment analysis ㆍText summary: abstract keywords and keyword network from texts produced by environmental policy provider and environmental policy consumers ㆍSentiment analysis: Real-time collection and sentiment analysis of SNS related to all subfield of environment - Issue Based Database: Key environmental issue network connected with data analysis for each issue updating real-time ㅇ Policy need Identification: Detect environment policy areas and regions in need of intervention from the predictions of ‘Deep Learning Based Pollution Prediction algorithm’, the text analysis results of ‘Real Time Environmental Text Analysis algorithm’, and the data analysis results of ‘Issue Based Database’ ㅇ Timeliness assessment: check if the temporal pattern of keywords analysis result on policy provider text and the temporal pattern of keywords analysis results on policy consumer are consistent ㅇ Effectiveness assessment: Check Pollution improvement, SNS Sentiment improvement, and Environmental Issue improvement after policy execution ❏ In 2020, we tried to improve interpretability of ‘Environmental Policy monitoring System’ ㅇ While utilizing the advantage of deep learning we found in period 1(2017~2019), we tried to reduce complexity and strengthen interpretability ㅇ In period 1, we focused on ‘apply everything related to big data analysis to Environment policy research’ From 2020, we are going to focus on ‘Environmental Policy Research using large scale data’ ㅇ Regrading methodology, we stick to machine learning in period 1. From 2020, we are going to be more flexible and try to include traditional frequentist and Bayesian statistical methods ㆍWe are going to use simpler models to improve our understanding on feature importance ㆍWe are going to build models capable of longer -term prediction and models with more interpretability ❏ In 2020, we build four algorithms for ‘Environment Policy Monitoring System’ and perform two independent researches ㅇ For ‘Environment Policy Monitoring System’, we expand the methodology and scope of previous components - We added two fine particle estimation algorithms in `Fine particle high concentration event prediction’ and ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’ - In ‘Environmental text sentiment analysis algorithm’, we expanded sentiment analysis of environment related SNS to all subfield of environment - In ‘Climate change issue based database’, we constructed new issue based database on climate change ㅇ On two important issues that cannot be integrated to ‘Environment Policy Monitoring System’, we did independent research - In ‘The impact of air pollution long-term exposure to mortality of COPD patients’,we estimated the effect of long-term exposure of air pollution on the death risk of COPD patients using NHI (National Health Insurance) Data - In ‘Solar electricity generation prediction’, we constructed an RNN based algorithm predicting solar electricity generation of F1 power plant Ⅱ. Fine Particle High Concentration Event Prediction ❏ We built a quantile regression based prediction algorithm to predict ‘extremely bad(76+)’ event of PM<sub>2.5</sub> in 25 air pollution monitoring station in Seoul ㅇ We adjusted quantile regression model to analyze data with extreme values - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution decreases when contemporary and 1 time ahead rainfall, windspeed increases Ⅲ. PM<sub>2.5</sub> Estimation and Prediction Using Graph-GRU Algorithm ❏ We built Graph-GRU albright utilizing weather and geography information to prediction PM<sub>2.5</sub> pollution ㅇ We construct a 3 dimension dataset consists of temporal and spatial data - Our dependent variable is 3 hour average PM2.5 concentration of 0.125° × 0.125° Grid (12.5km x 12.5km) containing air-pollution monitoring stations in South Korea - Our independent variables are weather data, air pollution data and height data ㆍWe trained our model with data from Jan. 1st. 2015 to Dec. 31th. 2015, validated with data from Jan. 1st. 2016 to Dec. 21th. 2016, and tested with data from Jan. 1st. 2017 to Dec. 21th. 2017, ㅇ We used Graph-GRU algorithm - For node attributes, we used weather data, spacial data, and air pollution data - To measure edge attributes, we constructed a function evaluating impact of air pollutant emission between air pollution monitoring stations ㆍThis function evaluates impact of air pollutant emission between air pollution monitoring stations using distance, wind speed, and wind direction - For adjacency Matrix, we used threshold of distance of 300km or height of 1,200m ❏ RMSE of our model in 3 hour~72 hour prediction was 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup> ㅇ Temporal information reduced RMSE by 0.12μg/m<sup>3</sup>, and spacial information reduced RMSE by 0.16μg/m<sup>3</sup> Ⅳ. Environmental Text Sentiment Analysis Algorithm ❏ ‘Environmental text sentiment analysis algorithm’ periodically performs collection-analysis-result distribution on SNS text regarding environment ㅇ We expanded climate change sentiment analysis algorithm we build in 2018~2019 to all subfield of environments, and trained with new 140 thousands SNS text training data labeled by semi-supervised learning to improve accuracy ㅇ We constructed web based user interface to visualize sentiment analysis results over time ❏ To improve accuracy, we increase the size of our training data from 50 thousand to 180 thousand using semi-supervised learning ㅇ We collected 6.5 million SNS text, and applied 2018~2019 version climate change sentiment analysis algorithm. We collected 140 thousands cases with high positive/negative sentiment score, which we added to training data. We kept 10 thousand cases for testing ㅇ With this new training data, the accuracy of sentiment analysis improved by 1%p: From 78.7% to 79.7% ❏ Sensitivity of our newly trained model was 66~92%, and Recall of our newly trained model was 73%~81%, according to subfield ㅇ ‘Waste’ field had the lowest Sensitivity and Recall. This field needs supervised learning approach to improve overall accuracy ❏ We built web based user interface to visualize sentiment analysis results with user option of keyword search and period choice ㅇ Our user interface also abstract keyword network of SNS of negative sentiment, which should give insights on the cause of negative sentiment Ⅴ. Climate Change Issue Based Database ❏ We built a datamap on Climate change consists of hierarchically organized climate change issue network and data analysis linked to each issue in the network. This datamap is capable of real-time data analysis update ㅇ We build issue collection module to extract issues from text data and data analysis module to link data analysis with extracted issues ❏ Issue collection module execute ‘Climate change text collection → Topic Extraction → Issue Identification → Issue Network Organization’ process ㅇ Text Collection: Reports from government sponsored research institutes/ Formal speeches from higher-ranking official/Press Release from government/Assembly meeting transcripts/Materials from Climate Change From in Assembly/DBpia academic paper abstracts/NAVER paper articles of 12 major papers from 2012 to 2019 ㅇ Topic Extraction: Apply Correlated Topic Model to extract 10 topics and correlation between topics ㅇ Issue Identification: Derive issues from key sentences extracted from TextRank algorithm ㅇ Issue Network Organization: Assign each issue to topics and organize issues according to the relationship between topics - We deduced relationship between topics combining three sources of informations - (1) Correlation coefficient from Correlated Topic Model (2) Similarity of time series frequency pattern from Dynamic Time Warping (3) Specialist Survey - We re-categorized 10 CTM topics into 5 Categories: Climate Issue cooperation/Climate Change adaptation/Greenhouse Gas Reduction /Energy and Environment/Urban Environment and Citizen ❏ Data analysis module attach data source and data analysis result to each issue in Climate Change Issue Network - We linked each data analysis to data source so that we can update data analysis in real-time Ⅵ. The Impact of Air Pollution Long-Term Exposure on the Mortality of COPD Patients ❏ We estimate the impact of 1-year and 5-year air pollution exposure on the mortality of COPD patients ㅇ We analyzed medical data of COPD patients older than 40 diagnosed from 2009 to 2018 ㅇ We used kriging to convert air pollution monitoring station data to small local district (Up. Myun.Dong) data and applied Cox Proportional hazard model to small local district data ❏ We combined NHI(National Health Insurance) individual patient data and air-pollution monitoring station data ㅇ For air pollution exposure variable, we used 1-year and 5 year average of small local district PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> pollution - For PM<sub>10</sub> and NO<sub>2</sub>, We used daily average. For O<sub>3</sub>, we used average of maximum 8 hours for each day (We converted the unit of O<sub>3</sub> and NO<sub>2</sub> from ppb to ㎍/m3) ㅇ From NHI individual medical data, we obtained gender, age, income percentile, CCI, COPD exacerbation, smoking status ㅇ For dependent variable, we used dummy variable assigning 1 for death and 0 for survival ❏ We found that COPD patients exposed higher O<sub>3</sub> 1-year or 5-year had higher risk of death ㅇ Hazard ratio of 1 year O<sub>3</sub> exposure was estimated as 1.003. Hazard ratio of 5 year O<sub>3</sub> exposure was estimated as 1.004 Ⅶ. Solar Electricity Generation Prediction ❏ We developed an LSTM algorithm predicting electricity generation of Yung -am F1 solar power plant ㅇ We predicted hourly electricity generation and 12 hour average of electricity generation. The electricity generation was non-stationary time-series ❏ For independent variables, we used electricity generation and weather data with 1 lag ㅇ For weather data, we used hourly temperature, rainfall, humidity, solar insolation, Total Cloud amount from Mokpo weather monitoring station ㅇ We used data from Jan. 01.2017 to Jun. 30. 2018 for training, and data from Jun. 30. 2018 to Jun. 30. 2019 for testing ❏ We built and RNN based LSTM algorithm and compared RMSE with ARIMA model and 3-lag moving average ❏ The RMSE of our model was 36.9% of standard deviation in 1 hour prediction and 51.1% in 12 hours average prediction ㅇ The RMSE to standard deviation of our model was 71% of the RMSE to standard deviation ratio of 3-lag moving average, and 45% of RMSE to standard deviation of ARIMA model Ⅷ. Conclusion and Suggestions ❏ Summarizing, we improved ‘Environmental Policy Monitoring System’ and added some new results ㅇ We supplemented and improved components of ‘Environmental Policy Monitoring System’ - ‘Deep Learning Based Pollution Prediction algorithm’: We improved interpretability and extended prediction lag ㆍ ‘Fine particle high concentration event prediction’: We built a Quantile regression model which can produce coefficient estimates for independent variables and is capable of prediction as accurate as machine learning algorithm ㆍ ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’: We achieved 7.64g/m<sup>3</sup> 12 hour prediction RMSE, which is equivalent to 1 hour prediction RMSE of our CNN based algorithm in 2019 - ‘Real Time Environmental Text Analysis algorithm ’: We expanded realtime sensitivity analysis and keyword network abstraction of negative sentiment for all environmental policy subfield - ‘Issue Based Database’: We improve policy monitoring scope from fine particle issue (2019) to climate change (2020) ㅇ We developed three new algorithms and one new issue based database - Fine particle high concentration event prediction quantile regression model, PM<sub>2.5</sub> pollution prediction Graph-GRU model, RNN based Solar electricity generation prediction algorithm/ climate change datamap ㅇ We expanded scope of environmental text analysis: Real-time environmental text analysis web interface ❏ For policy application, we strengthen environmental policy monitoring capability, quantify the health risk of air pollution, and provided items for the infrastructure of renewable energy ㅇ Environmental Policy monitoring: We improved policy need identification and information generation for precautionary policy intervention - Now our ‘Real Time Environmental Text Analysis algorithm’ is capable of identifying subfield of environment regarding which general public has negative sentiment. - Now our ‘Climate Change datamap’ is capable of real-time assessment of climate change issues - Now our ‘Deep Learning Based Pollution Estimation algorithm’ is capable of extending prediction lag of PM<sub>2.5</sub> and providing basic causality analysis for high concentration event of PM<sub>2.5</sub> ㆍGraph-GRU extended prediction lag. We can use this time for preventive policy intervention ㆍQuantile Regression model can be used policy evaluation tool by extending control variables and policy related variables ㅇ We provided quantified risk of air pollution on COPD patients, which can be used to quantify benefits of air-pollution reduction policy ㅇ We provided solar electricity generation prediction algorithm, which can be used for renewable energy smart-grid infrastructure

      • KCI등재

        오픈소스 빅데이터 기술을 적용한 생명보험 예측모델 분석환경 구축에 관한 사례연구 : ING 예측모델을 중심으로

        김성현 ( Sung Hyun Kim ),천지원 ( Jiwon Chun ),이미영 ( Miyoung Lee ) 한국생산성학회 2018 生産性論集 Vol.32 No.1

        The analysis target data, analysis algorithm, and analysis utilization scenario were defined and developed by identifying eight key analysis services by the value chain of the insurance business. Thus, the insurance big data strategy model was shared and diffused to enable small and medium-sized insurance companies to apply the analysis results to their business while minimizing trial and error in the field of big data adoption. Since most business is processed online in the domestic financial sector, the volume of accumulated internal data is enormous, and its types are diverse, and this has consequently improved the level of big data activation compared to other industries; hence the high potential value and possibilities for the utilization of data analysis. Large insurance companies such as S Life Insurance, H Life Insurance, and K Life Insurance have introduced big data analysis to the domestic insurance industry, which is experiencing continuous trial and error due to the lack of shared information on the effects of the introduction and application of big data analysis. The main contents of this case study are as follows. First, development of a strategy model that internalizes big data analysis based on the value chain of the insurance industry. Second, formation of big data analysis environment through the application of open source technology and STT/TA environment for unstructured text analysis. At last, Sharing of big data analysis strategy model that is suitable for the business and data management status of medium-sized insurance companies.

      • 감염병 대응을 위한 데이터 분석 및 활용시스템 운영방안

        옥진아,김채만,권진우,정효진 경기연구원 2020 정책연구 Vol.- No.-

        본 연구는 코로나19(BC-AD)에 신속하고 정확한 데이터 기반의 행정지원체계가 필요한 상황이나, 현재 산재되어 있는 공공, 민간데이터를 수집, 융합하여 분석할 수 있는 데이터 활용체계가 미흡하여, 이에 대한 개선방안을 제안하여 감염병대응을 위한 과학적인 행정지원 체계를 마련하고, 데이터 기반의 신속한 정책 및 의사결정 지원기능을 강화하고자 한다. 포스트 코로나 시대에서의 주요 도시 문제를 해결할 수 있도록 과학적 행정업무 프로세스로 전환하여 현장의 요구사항을 신속히 대응하고 이에 따른 정책적 대안을 제시하고 미래 예측형 서비스 발굴을 통해서 데이터 기반의 문제해결 방안에 대한 모색이 필요하다. 경기도 데이터분석 활성화를 위해서는 데이터를 단순히 수집하고 분석할 수 있는 환경만 제공하는 서비스가 아니라, 데이터를 제대로 파악하고 관리함으로써 데이터 분석 및 운영체계를 마련하는 것이 선행되어야 한다. 데이터 분석은 체계적인 데이터의 수집 경로를 통해서 지속적으로 데이터를 제공하고, 분석결과는 수집된 데이터를 기반으로 변화되는 자료를 계속해서 제공하는 서비스가 필요하다. 또한 분석결과와 자료는 공유 환경을 마련함으로써 도민에서 데이터를 활용할 수 있는 기회를 확대 제공해야한다. 또한, 데이터 기반의 서비스모델을 발굴하고, 정책분야에서의 활용도를 높여 데이터 기반의 행정업무 수행 여건을 마련해야 한다. 이를 위해 감염병 대응을 위한 데이터 분석과제들을 다음과 같이 제안한다. [표 본문 참조] 제시한 데이터 분석과제 수행을 위해서는 다양한 융복합 데이터가 필요하며, 이를 위해서는 데이터 통합마트 및 관리체계가 필요하다. 데이터의 통합수집 분석을 위한 데이터는 공공데이터 뿐만 아니라 민간데이터의 확보도 중요하다. 데이터 기반의 분석을 위해서는 융·복합된 데이터와 감염병과 같은 상황은 적시성 있는 데이터 확보가 중요하며, 이를 위해서 경기도와 민간 데이터 기업과의 업무협력을 통한 데이터 통합운영 관리 및 활용할 수 있는 여건 마련이 필요하다. 데이터 기반의 분석을 활성화하기 위해서는 단기적으로는 현재 운영하고 있는 분석센터의 기반 조성과 데이터 활용을 위해 필요한 데이터를 수집하여 데이터 분석환경을 제공해야 한다. 인프라 확장 측면에서는 클라우스 시스템을 통한 온라인 분석시스템 확장을 검토할 필요가 있다. 장기적으로는 데이터 분석 및 활용시스템을 활성화하기 위해서는 거버넌스 체계 강화와 경기도형 분석 서비스 모델 고도화 방안이 마련되어야 한다. 또한, 데이터 기반의 행정서비스 및 데이터 분석기반의 정책 수립과 행정서비스 만족도 향상과 안정적인 분석시스템 운영관리를 위해서는 데이터 분석이 분석으로 끝나지 않고, 정책으로 실현될 수 있는 분석과제를 도출하고 대안을 수립하는 것이 필요하다. 감염병 등의 도시문제를 다양한 전문가와 데이터 분석을 통해서 해결방안을 도출 할 수 있는 운영체계를 마련해야한다. 전담 조직은 도정 전반에서 데이터 기반의 행정/정책 활용 역량을 극대화할 수 있도록 교육, 분석 플랫폼 운영을 위한 전문 인력과 행정실무부서, 데이터 분석을 통한 정책적 인사이트를 도출할 수 있는 공공·연구기관과의 협의체를 통해서 운영체계가 마련되어야 한다. We are in a situation where we need a rapid and accurate data-based administrative support system to respond to Corona 19 but the data utilization system that can not only collect but also integrate and analyze scattered public and private data is insufficient. This study aims to establish a scientific administrative support system for responding to infectious diseases by suggesting improvement measures and to reinforce the data-based rapid policy and decision-making support function. In order to solve urban problems in the post-corona era, it is necessary not only to switch to a scientific administrative work process but also to quickly respond to the demands of the field. Accordingly, a data-based problem-solving plan should be established by presenting policy alternatives and discovering future predictable services. A service that provides an environment in which data can be simply collected and analyzed to activate data analysis in Gyeonggi Province, Data analysis and operation plans to understand and manage data must be prepared in advance. Data analysis requires a service that provides data in real-time through a systematic data collection path, and the analysis result continuously provides data based on the collected data. Besides, an environment for sharing analysis results and data should be provided to expand opportunities for citizens to use the data. Also, it discovers data-based service models and increases its utilization in the policy field. An environment for performing data-based administrative work should be established. Data analysis tasks for countering infectious diseases are proposed as follows. [표 본문 참조] Various convergence data is required to perform the proposed data analysis task, and for this, a data integrated mart and management system are required. For the integrated collection and analysis of data, it is important to secure not only public data but also private data. For data-based analysis, it is important to secure timely data for situations such as integrated and complex data and infectious diseases. To this end, it is necessary to prepare conditions for integrated data management and utilization through business cooperation with Gyeonggi Province and private data companies. In order to activate data-based analysis, it is necessary to provide an environment in which data analysis can be performed by collecting data necessary for establishing the foundation of the currently operated analysis center and utilizing data in the short term. In terms of infrastructure expansion, it is necessary to review the online analysis system expansion through the cloud system. In order to grow the data analysis and utilization system in the long-term, measures to strengthen the governance system and advance the Gyeonggi-do analysis service model should be prepared. Data analysis does not end with analysis, but it is necessary to derive analysis tasks that can be realized through policies and to establish alternatives. Also, it is necessary to prepare an operating system that can derive solutions to city problems such as infectious diseases through data analysis with various experts. A dedicated organization should have professional manpower and administrative departments to operate an education and analysis platform to maximize the ability to utilize data-based administration/policy throughout the province. Operational plans should be prepared through discussions between public institutions and research institutions that can derive policy insights through data analysis.

      • KCI등재

        생성방법에 따른 포인트클라우드 데이터의 품질 분석

        이현직(Lee, Hyun Jik),양승룡(Yang, Sung Ryong),이동국(Lee, Dong Gook) 대한공간정보학회 2021 대한공간정보학회지 Vol.29 No.3

        최근 공간정보는 수치지도 등고선을 이용한 2차원 선형데이터에서 포인트클라우드와 같은 3차원 데이터로 전환되고 있는 실정이다. 일반적으로 포인트클라우드 데이터는 LiDAR 센서를 이용하여 취득하는 방법과 각종 디지털영상을 컴퓨터비전 해석을 통해 생성된다. 본 연구에서는 전통적인 산림지역인 연구대상지를 대상으로 LiDAR 기반 및 CV해석 기반의 5가지 유형 포인트클라우드 데이터를 생성하였으며, 이를 이용하여 생성방법에 따른 점밀도와 절대정확도 및 상대적인 품질분석을 수행하였다. 본 연구의 수행 결과, 생성방법별 포인트클라우드 데이터의 점밀도 특성을 알 수 있었으며, CV해석 기반 데이터에 비해 LiDAR 기반 데이터가 수직위치 정확도가 상대적으로 높게 나타났고, CV해석시에는 영상의 중복도와 영상크기 및 공간해상도의 영향이 절대정확도에 미치는 영향이 큼을 알 수 있었다. 포인트클라우드 데이터의 단면분석과 3D 모델형성의 상대적인 품질분석 결과, 산림지역의 LiDAR 기반 포인트클라우드 데이터는 점밀도에 따라 수종별 DEM 및 DSM의 차이점을 나타내었으며, CV해석 기반 데이터의 경우는 취득시기에 따라 특징점 추출이 어려워 수종별 DCM의 차이점을 나타내었다. 생성방법별 3D 모델 형성은 LiDAR기반 데이터보다는 CV해석 방법이 더욱 유용했으며, 영상의 공간해상도와 중복도에 대한 심중한 고려가 필요함을 알 수 있었다. 또한, 본 연구에서는 촬영시기가 다른 영상을 융합하여 CV해석을 수행하거나, CV해석시 동시에 취득된 원시 포인트클라우드 데이터를 융합하는 방법을 적용한 결과, 두가지 데이터 융합을 통한 CV해석 결과가 절대정확도 및 상대적인 품질향상에 효과적임을 알 수 있었다. Recently, geospatial information is being converted from 2D linear data using contour lines on digital map to 3D point cloud data. In general, point cloud data is obtained through generation method using LiDAR sensor and computer vision(CV) analysis of various digital images. In this study, 5 types of point cloud data based on LiDAR and CV analysis were generated for the study area, which is a traditional forest area, and point density, absolute accuracy, and relative quality analysis were performed according to the generation method. As a result of this study, it was possible to know the point density characteristics of the point cloud data for each generation method. Compared to the CV analysis-based data, the LiDAR-based data showed relatively high vertical position accuracy. It was found that the effect of image size and spatial resolution had a large effect on absolute accuracy. As a result of cross-sectional analysis of point cloud data and relative quality analysis of 3D model production, LiDAR-based point cloud data in forest areas showed differences in DEM and DCM by tree species according to point density, and in the case of CV analysis-based data, it was difficult to extract special points with the acquisition time, so the difference of DCM for each species was shown. It was found that the CV analysis method was more useful than the LiDAR-based data for 3D model formation for each generation method, and serious consideration of GSD and overlap of the image was necessary. In addition, in this study, as a result of applying the method of performing CV analysis by fusion of images with different acquisition times or fusion of raw point cloud data acquired at the same time during CV analysis, CV analysis through two data fusion was found to be effective in improving absolute accuracy and relative quality.

      • KCI등재

        지역 패션산업 활성화를 위한 빅데이터 활용 및 연구동향 분석

        최수경 한국지역경제학회 2023 韓國地域經濟硏究 Vol.21 No.1

        The purpose of this study is to help revitalize the local fashion industry by analyzing the use of big data and research trends in the fashion industry. The scope of the study was set to the representative cases and studies of big data used in the fashion industry and fashion-related industries, and the method of study was academic data, research reports, Internet newspaper articles or trend reports Data such as videos, periodicals, and interviews were collected and analyzed for research. In this regard, this study obtained the following conclusions as a result of analyzing the use of big data and research trends in the fashion industry. Big data analysis in the fashion industry tends to be used and studied mainly in trend analysis, consumer analysis, design development, and inventory management. In trend analysis, trend analysis through big data can be an important predictive data at a time when small-quantity production of various types is oriented and the reactive production system (QRS) is actively used. In consumer analysis, consumer analysis through big data is most necessary at a time when SNS and online use is increasing due to changes in lifestyle and online shopping of consumers after the pandemic, and it is considered suitable as data to understand consumers. In design development, the use of big data will bring about innovative changes in the way of identifying and communicating the design needs of the public in the information age. In inventory management, by using big data, accurate analysis and forecasting, production and planning, and inventory criteria will be able to respond quickly to meet the needs and needs of consumers. In addition, the last 5 years, 3 years, and 1 year were analyzed with word cloud to find out the usage and research trends in the fashion industry with keywords related to the fashion industry applied to the actual web. As a result, in all of the 5-year, 3-year, and 1-year analyses, fashion, industry, and Seoul had a high proportion, especially fashion. PET bottles were also prominent in the 3-year analysis and worldwide in the 1-year analysis. 본 연구는 패션산업에서의 빅데이터 활용 및 연구동향을 분석하여 지역 패션산업의 활성화에 도움이 되는 데 그 목적이 있다. 연구의 범위는 패션산업 및 패션관련산업에서 활용되고 있는 빅데이터의 대표적인 사례 및 연구를 범위로 설정하였고, 연구의 방법은 패션과 빅데이터에 관련된 학술자료, 연구보고서, 인터넷 신문기사나 동향보고서, 동영상 및 정기간행물, 인터뷰 등의 자료를 수집, 분석하여 연구하였다. 이에 패션산업에서의 빅데이터 활용 및 연구동향을 분석한 결과 다음과 같은 결론을 얻었다. 패션업계의 빅데이터 분석은 트렌드 분석, 소비자 분석, 디자인 개발, 재고관리를 주축으로 활용되고 연구되는 경향을 보이고 있다. 트렌드 분석에서는 다품종소량생산을 지향하고, 반응생산시스템(QRS)이 활발히 이용되는 현황을 비추어 볼 때 빅데이터를 통한 트렌드 분석이 중요한 예측 자료가 될 수 있을 것이다. 소비자 분석에서는 팬데믹 이후 소비자들의 라이프스타일 변화와 온라인 쇼핑 증가로 SNS와 온라인 사용이 증가하고 있는 시점에서 빅데이터를 통한 소비자 분석이 무엇보다 필요하고 소비자를 이해하는 자료로 적합할 것으로 본다. 디자인 개발에서는 빅데이터 활용을 통해 정보화 시대에 대중의 디자인 니즈를 파악하고 소통하는 방법에 혁신적인 변화를 가져올 것이며, 이를 디자인 개발에 반영한다면 소비자의 요구를 즉각 반영한 상품 기획 및 구매로 이어질 것이다. 재고관리에서는 빅데이터 활용으로 정확한 분석과 예측, 생산 및 기획, 재고의 기준이 소비자의 요구도와 필요에 맞춰서 발 빠르게 대응할 수 있을 것이다. 추가적으로 실제 웹상에 적용된 패션산업 관련 키워드로 패션산업에서의 활용 및 연구동향을 알아보기 위해 최근 5년간, 3년간, 1년간 구분하여 워드클라우드로 분석해 보았다. 그 결과 5년간, 3년간, 1년간 분석 모두 패션, 산업, 서울시가 비중이 높게 나타났으며, 특히 패션이 압도적으로 높게 나타났다. 그리고 3년간 분석에는 페트병이, 1년간 분석에서는 글로벌이 두드러지게 부상하는 양상을 보였다.

      • 기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구

        진대용 ( Daeyong Jin Et Al. ),강성원,최희선,한국진,김도연 한국환경정책평가연구원 2018 기후환경정책연구 Vol.2018 No.-

        본 연구는 환경 텍스트 데이터를 활용하여 주요 기후환경 이슈를 분석하기 위한 텍스트 마이닝 방법론의 활용방안을 탐색하였다. 환경 이슈를 분석하기 위해 활용할 수 있는 환경 텍스트들을 파악하고 각 텍스트에 대해 텍스트 마이닝 또는 빅데이터 분석 방법론을 활용하여 어떤 결과를 도출할 수 있는지 파악 및 점검하였다.먼저 텍스트 마이닝의 개념을 정의하고 환경(정책)연구에서 텍스트 마이닝 기법들의 활용 현황을 파악하였다. 텍스트 마이닝은 텍스트 데이터로부터 의미 있는 정보를 추출하는 과정이 다. ICT의 발전과 비정형 텍스트 분석을 위한 다양한 텍스트 마이닝 방법론이 등장함에 따라 대용량의 텍스트 데이터들로부터 과거의 주요 이슈를 파악하고 이들의 동향을 분석하여 미래 주요 이슈들의 동향에 대한 예측하는 연구가 다양한 분야에서 수행되고 있고 의미 있는 결과를 도출하고 있다. 환경(정책)연구에서도 텍스트 마이닝을 활용하여 연구 결과를 도출하고 있다. 하지만 다양한 분석을 통해 여러 관점에서 결과를 도출하는 과정의 중요성보다 결과 분석 및 해석에 초점이 맞춰져 있고, 연구를 수행하는 과정에 활용된 데이터나 소스코드 등은 다시 활용되지 않아 데이터 분석 연구의 장점을 충분히 발휘하지 못한 부분이 있다. 본 연구에서는 텍스트 마이닝의 강점인 데이터 분석의 자동화와 지속적인 활용성 측면을 극대화하기 위해 노력을 하였다. 본 연구에서는 이 목표를 달성하기 위해 다양한 환경 텍스트 데이터 수집 및 분석 기능을 포함시킨 환경 텍스트 분석 프레임워크를 구축하였으며, 모든 소스코드를 공개하고 데이터 분석에 익숙하지 않은 사용자를 위해 주요 기능을 웹 서비스 형태로 구현하였다.다음으로는 구축된 환경 텍스트 분석 프레임워크를 활용하여 환경 텍스트 데이터의 수집 및 분석을 수행하였다. 먼저 네이버 환경뉴스, 환경부 보도자료, 환경부 e-환경뉴스, 환경백서 데이터를 수집하는 알고리즘을 구축하고 주기적으로 크롤링을 수행하여 데이터 서버에 저장하도록 하였다. 또한 이를 바로 데이터 분석에 활용하여 최신 데이터를 분석할 수 있도록 하였다.본 연구에서는 기후환경 이슈에 대한 분석을 집중적으로 수행하였는데, 각 텍스트 데이터를 분석하여 개별 결과를 도출하였다. 환경 전체 분야를 보았을 때 ‘미세먼지’, ‘폭염’, ‘친환경’, 등의 키워드가 상대적으로 증가세를 보이고 있었으며, ‘기후변화’ 키워드의 경우에는 전체적으로 줄어드는 경향을 보이고 있었다. 이는 ‘기후변화’라는 키워드보다는 ‘기후변화’ 중 재난/재 해(폭염, 한파 등)와 같은 세부현상메 대한 기사가 많아졌고, ‘기후변화’ 키워드를 포함하지 않는 문서가 많아진 것에 기인한 것으로 판단된다. 세부적으로 네이버 환경뉴스의 경우 전반적으로 기후변화에 관련 정보 및 피해(폭염, 한파, 홍수 등)에 관련된 이슈들을 많이 포함하고 있어 전반적인 기후환경 이슈 분석에 유용함을 확인할 수 있었다. 네이버 환경뉴스에서 ‘기후 변화’의 근본적인 내용인 지구온난화현상이나 온실가스 감축 등과 같은 내용이 시간이 지날수록 줄어들고 최근에는 ‘폭염’, ‘가뭄’, ‘한파’ 등과 같은 세부현상들의 키워드를 포함하는 문서가 상대적으로 많아지는 추세를 보이고 있었다. 환경부 보도자료 및 e-환경뉴스에서는 기후변화 세부현상(폭염, 한파, 폭설 등) 하나하나에 대해 거의 다루고 있지 않았으며, ‘기후변화’라는 큰 틀에서 정책 논의나 앞으로의 방향에 대한 내용들을 포함하고 있어서 기후변화에 있어 근본적인 내용에 대한 이슈 및 흐름을 파악할 수 있는 장점이 있었다. 환경백서의 경우 키워드의 수는 많지 않았지만 ‘미세먼지’, ‘폭염’ 등 최신 주요 키워드들이 뚜렷하게 나타나고 있고, 다른 문서들과 달리 기후변화 키워드는 계속 증가하는 추세를 보이고 있어 실제 기후변화 문제 해결을 위한 많은 정책 논의가 있는 것으로 보인다.본 연구에서 활용한 LDA, Word2Vec 문장단위 키워드 분석, 문서단위 키워드 분석, 키워드 네트워크 분석, 문서 요약 등의 방법론은 앞으로 다양한 환경 텍스트에 포함된 이슈 발굴 및 분석에 유용하게 활용될 것으로 보인다. 또한 구축된 환경 텍스트 분석 프레임워크 및 웹 서비스를 활용할 수 있는 방안을 기술하였고, 연구 결과를 분석하여 도출된 결과를 활용한 환경 정책 사례를 제시하였다.본 연구의 결과물은 향후 환경 정책연구자들이 관련 정책을 수립할 때 데이터에 기반한 근거로 활용할 수 있으며, 앞으로 보다 다양한 텍스트 분석을 통해 민간, 언론, 환경연구자, 정책 공급자 등 다양한 관점을 고려한 정책 수립에 기여할 것으로 기대한다. In this study, we look at the application of text mining methodology to analyze major climatic environmental issues using environmental text data. We investigate environmental texts that can be used to analyze environmental issues and for each text, we understand and check what results could be derived.First, we define the concept of text mining and understand the usage of it in environment (policy) research. Text mining is the process of extracting meaningful information from text data. With the advance of ICT technology and various text mining methodologies for unstructured text analysis, research to identify trends in major issues from large-scale text data and to analyze trends in order to predict trends in future major issues is being conducted across various fields and has meaningful results. However, the focus is on the results analysis and interpretation rather than on the importance of the process of deriving the results from various perspectives through various analyses. Data and source code used in the process of research are not reused, so some of the advantages of data analysis is not fully demonstrated. In this study, we tried to maximize the automation and continuous utilization of data analysis, which is the strength of text mining. In this study, we constructed an environment text analysis framework that includes various environmental text data collection and analysis functions for all users who are unfamiliar with data analysis. We have released all the source code and implemented the key functions as a web service so that users who are not familiar with data analysis can use it.Next, we collected and analyzed environmental text data using the built environment text analysis framework. We constructed an algorithm to collect data from Naver environment news,Ministry of Environment press releases, Ministry of Environment e-environment news, environmental white papers and periodicals. Its crawls the data and stores it on the data server. In addition,the data is used to enable analysis of the latest data.Next, we constructed algorithms for analyzing the environmental text data, and results of the analysis were derived from this. As a result, keywords such as 'fine dust’,'heat waves’, and ’environmentally friendly1 had relatively increased, while the keyword 'climate change' showed a tendency to decrease overall. This seems to be due to a lot of articles about the detailed phenomena of ’climate change1 such as 'heat waves’,and ’cold waves' rather than the keyword 'climate change’. In detail, Naver’s environmental news includes a lot of issues related to climate change information and detailed phenomena (heat, cold wave, flood, etc.), and is useful for analyzing overall climate environment issues. The content for ’global climate change’,such as the phenomenon of global wanning and greenhouse gas reduction, has decreased over time. On Naver environmental news,the fundamental content for climate change, such as global warming and greenhouse gas reductions, declined over time and in recent years, there have been a relatively large number of documents containing keywords related to detailed phenomena such as 'heat waves’, ’drought’ and ’cold waves’. The Ministry of Environment’s press release and the Ministry of Environment e-environment news did not cover every detail of climate change phenomenon (heat,cold waves, heavy snow, etc.). It includes policy discussions and the future direction on the major trend of climate change, so it has an advantage in understanding the issues and flow of fundamental content in climate change. In the case of environmental white papers, the frequency of keywords is not high, but the latest important keywords such as ’fine dust’ and 'heat waves’ are showing an increasing trend. Unlike other documents, the keyword of ‘climate change9 is also continuously increasing. There appears to be a lot of policy discussion on climate change issues in the environmental white papers.Methodologies utilized in this study such as LDA, Word2Vec, sentence-based keyword analysis, document-based keyword analysis, keyword network analysis, and document summarization can be used to identify and analyze various climate issues in the future. In addition, we described how to utilize the built environment text analysis framework and web service, and presented environmental policy examples using the results of the analysis.Based on this research, environmental policy researchers are expected to be able to establish policies based on data, and contribute to the establishment of policies that take into account various perspectives such as private citizens, the media, environmental researchers, and policy providers through various text analyses.

      • KCI등재

        Neo-Chinese Style Furniture Design Based on Semantic Analysis and Connection

        Jialei Ye,Jiahao Zhang,Liqian Gao,Yang Zhou,Zi Yang Liu,Jianguo Han 한국인터넷정보학회 2022 KSII Transactions on Internet and Information Syst Vol.16 No.8

        Lately, neo-Chinese style furniture has been frequently noticed by product design professionals for the big part it played in promoting traditional Chinese culture. This article is an attempt to use big data semantic analysis method to provide effective design research method for neo-Chinese furniture design. By using big data mining program TEXTOM for big data collection and analysis, the data obtained from typical websites in a set time period will be sorted and analyzed. On the basis of "neo-Chinese furniture" samples, key data will be compared, classification analysis of overall data, and horizontal analysis of typical data will be performed by the methods of word frequency analysis, connection centrality analysis, and TF-IDF analysis. And we tried to summarize according to the related views and theories of the design. The research results show that the results of data analysis are close to the relevant definitions of design. The core high-frequency vocabulary obtained under data analysis, such as popular, furniture, modern, etc., can provide a reasonable and effective focus of attention for the designs. The result obtained through the systematic sorting and summary of the data can be a reliable guidance in the direction of our design. This research attempted to introduce related big data mining semantic analysis methods into the product design industry, to supply scientific and objective data and channels for studies on design, and to provide a case on the practical application of big data analysis in the industry.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼