RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 환경 빅데이터 분석 및 서비스 개발 Ⅱ

        강성원 ( Sung Won Kang ),이동현,장기복,진대용,홍한움,한국진,김진형,강선아,김도연 한국환경정책평가연구원 2018 사업보고서 Vol.2018 No.-

        본 연구는 2017년부터 시작된 계속사업으로서, 환경연구에 기계학습(Machine Learning) 연구방법론을 접목하여 환경정책 개발 가능성을 모색하는 연구이다. 본 연구는 환경연구에 빅데이터 방법론을 적용하는 ‘환경 빅데이터 연구’, 환경 빅데이터 연구에 필요한 대용량 데이터 수집 및 처리 인프라를 구축하는 ‘환경 빅데이터 인프라 구축’, 환경 빅데이터 연구 성과를 기반으로 원내·외 서비스를 개발하는 ‘원내·외 빅데이터 서비스 개발’ 등 3개 영역으로 구성되며, 연구단계별로 각 3년씩 총 3단계에 걸쳐 진행한다. 2018년은 환경 빅데이터 연구에 중점을 두는 제1단계(2017~2019년)의 2차 연도에 해당된다.2018년 환경 빅데이터 연구 영역에서는 2017년에는 인프라의 한계로 시도하기 어려웠던 대용량-비정형 데이터 분석을 시작하였고, 대기-기후 관련 매체 연구에 주력하였던 연구의 영역을 수질 및 수용체 반응을 대상으로 확대하였다. 환경 빅데이터 인프라 구축 영역에서는 대용량-비정형 데이터 연구를 수행할 수 있는 환경 빅데이터 플랫폼 구축을 병행하였다. 그리고 환경 빅데이터 서비스 개발 영역에서는 2017년 연구성과를 이용하여 환경연구 텍스트 데이터로부터 연구주제 및 연구키워드 네트워크를 파악하는 연구동향 파악 서비스를 구축하였다. 세부적인 연구의 성과들을 영역별로 요약하면 다음과 같다.첫 번째, 2018년 환경 빅데이터 연구 영역에서는 총 5건의 연구를 수행하였다. 5건의 연구 중 대용량-비정형 데이터 분석으로 환경 빅데이터 분석 영역을 확대한 연구는 ‘컨벌루션 신경망을 활용한 미세먼지 예측’, ‘기계학습 기반 환경이슈 감성분류기 개발: 기후변화를 중심으로’, ‘딥러닝을 이용한 국내 COPD 노인환자의 사망위험 추정’ 3건이다. 그리고 ‘데이터 기반 한강 수질 예측모형 개발’ 연구를 수행하여 매체 연구의 영역을 수질로 확장하였고, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’ 연구를 수행하여 수용체의 반응을 연구의 영역에 포괄하였다.‘컨벌루션 신경망을 활용한 미세먼지 예측’ 연구에서는 컨벌루션 신경망 모형을 이용하여 미세먼지 오염도를 예측하는 알고리듬을 개발하였다. 이 알고리듬은 전국을 10×10 격자로 구분한 공간의 미세먼지 오염도를 1~24시간 이전에 예측하는 데 활용되었다. 이 알고리듬은 4개 대기오염물질 오염도 정보 및 4개 기상 정보를 예측에 활용하였다. 이 알고리듬에 투입된 모든 정보는 컨벌루션 신경망의 입력자료로 활용될 수 있도록 전국을 10×10 격자로 구분한 공간에 역거리가중법(IDW)을 이용하여 할당되었다. 이 알고리듬은 1시간 이후 미세먼지 농도 예측의 평균제곱근오차를 2.07㎍/㎥ 까지 축소할 수 있었으며, 8시간 이후 예측의 평균제곱근오차도 9.09㎍/㎥ 까지 축소할 수 있었다. 이는 2017년에 개발한 KNN-순환신경망 모형의 1시간 이후 예측치 평균제곱근오차 7.96㎍/㎥ 를 획기적으로 개선한 결과이다.‘기계학습 기반 환경이슈 감성분류기 개발: 기후변화 중심으로’ 연구에서는 임베딩을 이용한 양방향 장단기 메모리(Bidirectional Long Short-Term Memory) 모형을 이용하여 기후변화와 관련된 SNS 문서의 감성을 7가지로 분류하는 감성분류기를 개발하였다. 이를 위해 기후변화 감성분류기 개발 과정에서 SNS 문서가 기후변화와 관련이 있는 문서인지 판별하는 기준이 되는 ‘기후변화 현상 사전’을 구축하여 SNS 문서 5만 건을 수집하였다. 그리고 수집된 5만 건을 수작업을 통해 7가지 감성으로 분류하여 감성 태그를 부여하였고, 이렇게 구축된 학습 데이터에 임베딩을 이용한 양방향 장단기 메모리(Bi-LSTM) 알고리듬을 적용하여 감성분류기를 개발하였다. Bi-LSTM을 이용한 감성분류기는 7가지 감성으로 분류했을 때 정확도가 85.10%였으며, 긍정-중립-부정 3가지로 감성을 단순화할 경우에는 정확도가 92.95%까지 향상되었다. 감성분류기의 개발과 더불어 이 연구를 통해 ‘기후변화 현상 사전’을 구축하였고 감성이 분류된 5만 건의 SNS 자료를 축적하였다. 사전 및 감성이 분류된 자료는 감성분류 연구에서 필수적으로 요구되는 도구로서 기후변화와 관련된 이들 도구는 본 연구에서 국내 최초로 구축하였다.‘딥러닝을 이용한 국내 COPD 노인환자의 사망위험 추정’ 연구는 대용량 자료인 건강보험 DB를 사용하는 연구이다. 이 연구는 전처리 단계에 많은 시간이 소요됨을 감안하여 2년에 걸쳐 2단계로 진행한다. 2018년에 추진한 제1단계에서는 입력 데이터를 구축하고, 2019년 진행 예정인 제2단계에서는 제1단계에서 구축한 자료를 이용하여 사망요인을 파악하고 사망 확률을 추정한다. 2018년 본 연구에서는 건강보험 맞춤형 연구자료로부터 추출한 65세 이상 COPD 환자 657,432명의 개인별 건강정보와 각 개인이 거주하는 시군구의 인구, 기상기후요인, 대기오염물질 오염도를 결합한 입력자료를 구축하였다.‘데이터 기반 한강 수질 예측모형 개발’ 연구에서는 순환신경망 모형 중 GRU(Gated Recurrent Unit) 모형을 이용하여 수질오염물질 오염도를 예측하는 알고리듬을 개발하였다. 이 알고리듬을 통해 가양, 노량진, 팔당 등 3개 한강 수계 수질측정소의 클로로필-a 농도를 1주일 전에 예측하는 데 활용되었다. 이 알고리듬은 예측지점 및 예측지점 상류지역의 수질오염 정보, 인근지역의 기상 정보, 그리고 인근지역의 수위 및 유량 정보를 예측에 활용하였다. 이 연구에서 개발한 GRU 알고리듬은 1주일 후 클로로필-a 농도 예측의 평균 제곱근오차를 10.93까지 축소할 수 있었다. 이는 단순회귀분석의 평균제곱근오차 16.95를 35.3% 개선한 성과이다. 특히 순환신경망 알고리듬은 급작스럽게 클로로필-a 농도가 증가하여도 근사한 예측치를 제공하였다. 통상적으로 사용되는 회귀분석 및 시계열 분석은 실측치가 급작스럽게 증가 또는 감소하면 그 증감이 증감시점 이후의 예측치에 반영되는 지연 예측 현상이 나타나는데, 이 연구의 결과는 이러한 회귀분석 및 시계열 분석의 약점을 개선할 수 있는 대안을 제시하였다.‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’ 연구에서는 미세먼지 농도가 서울 지하철 승하차 인원에 미치는 영향을 Boosted Decision Tree 모형을 사용하여 분석 하였다. 이 연구에서는 대기오염물질의 오염도, 그리고 기상 정보를 이용하여 개별 지하철역의 시간별 지하철 승하차 인원을 추정하는 Boosted Decision Tree 알고리듬을 구축하고 민감도 분석을 수행하여 미세먼지 오염도의 변화가 승하차 인원 예측치에 주는 영향을 정량적으로 파악하였다. 이 연구에서 구축한 Boosted Decision Tree 모형은 지하철 승하차 인원을 평균제곱근오차 0.11 이내로 예측할 수 있었다. 이는 선형회귀분석의 평균제곱근 오차 0.71을 84.5%나 개선한 결과이다. 이렇게 예측의 정확도를 높인 Boosted Decision Tree 모형을 사용하여 민감도 분석을 수행한 결과, 미세먼지 농도가 10% 증가하면 하차 인원이 0.2% 감소하고, 미세먼지 농도가 10% 감소하면 하차 인원이 1.4% 증가하는 것으로 파악되었다. 이렇게 미세먼지 농도 증가에 따른 하차 인원 감소가 미세먼지 농도 감소에 따른 하차 인원 증가보다 작은 경향은 승하차 인원, 승하차 시간 및 지하철역 주변 토지용도에 관계없이 일관되게 관찰되었다.두 번째, 2018년 환경 빅데이터 인프라 구축 영역에서는 대용량 자료 수집 및 자료 분석 기능을 구비한 환경 빅데이터 플랫폼을 설계하였고, 이를 1개 서버에 구현하였다. 자료 수집과 관련해서는 오픈데이터맵(Open Data Map)을 구축하여 환경연구 문헌에서 자주 인용되는 인터넷 자료의 검색 및 수집 기능을 부여하였고, 자료 분석과 관련해서는 대용량 자료를 분석할 수 있는 웹 개발 환경과 CLI(Command Line Interface) 환경을 설계하여 동일한 서버에 구현하였다.오픈데이터맵은 환경연구에서 자주 인용되는 온라인 자료들의 출처에 대한 정보와 링크를 제공한다. 본 연구에서 구축한 오픈데이터맵에 수록된 온라인 자료 출처는 2018년 현재 한국환경정책·평가연구원 도서관 DB에 수록된 한국환경정책·평가연구원 발간 문헌 1,925건의 전문에서 인용된 온라인 자료 출처들이다. 이 문헌들은 총 11개 부문(category)으로 분류하였고, 개별 온라인 자료 출처는 그 출처가 인용된 문건을 가장 많이 포괄하는 부문에 따라 부문별로 분류되었다. 각 부문 내에서는 그 부문에 속한 개별 온라인 자료 출처에 인용 문건의 수에 따라 순위를 부여하였고, 인용된 문건의 키워드를 개별 온라인 자료 출처의 키워드로 배정하였다. 오픈데이터맵은 이렇게 구축된 부문별 온라인 자료 출처의 순위, 온라인 주소(URL), 제목, 설명, 키워드를 사용자에게 보여주고 링크를 제공하여 사용자가 필요한 온라인 자료 출처를 찾아갈 수 있도록 하였다. 또한 키워드 검색 기능을 추가하여 부문이 아닌 키워드를 기준으로 자료 출처를 검색할 수도 있게 하였다.대용량 데이터 분석 기능을 갖추기 위해서는 프로그램 개발 언어 중 R과 Python을 사용할 수 있는 웹 환경과 Ubuntu Linux를 사용할 수 있는 CLI 환경을 구성하였다. 웹 환경은 이미 개발된 알고리듬을 웹 환경에 등재하여 분석을 수행하거나, R 또는 Python을 활용해서 알고리듬을 개발하고자 하는 연구자가 사용할 수 있는 환경이다. CLI 환경은 운영체제(Linux) 언어와 프로그램 개발 언어(R, Python)를 자유롭게 조합하여 사용할 수 있는 환경으로서, 데이터 수집-전처리-분석 전 과정을 포괄하는 연구를 수행하고자 하는 연구자가 활용하기에 적합하다. 이러한 분석 환경은 현재 본 연구단이 보유하고 있는 서버에 구현되어 있으며, 본 연구의 연구진들에게 제공되고 있다.마지막으로, 2018년 원내·외 환경 빅데이터 서비스 개발 영역에서는 그동안 한국환경정책·평가연구원에서 발간된 보고서들을 통해 연구주제의 동향을 파악하는 ‘연구동향 분석 서비스’를 개발하였고, 한국환경정책·평가연구원 보고서 제목의 키워드 및 네트워크를 파악하는 ‘연구키워드 분석 서비스’를 개발하였다. 두 서비스 모두 사용자가 임의의 텍스트 자료를 입력하면 입력자료의 토픽 및 키워드 네트워크를 실시간으로 파악할 수 있는 기능을 갖고 있다. 이들 서비스는 2017년 본 연구에서 수행하여 개발한 ‘텍스트 마이닝을 이용한 KEI 연구동향 분석’ 알고리듬을 임의로 입력하는 자료에도 구동될 수 있도록 개선하여 구축한 서비스이다.‘연구동향 분석 서비스’는 LDA 토픽 모델링 기법을 텍스트에 적용하여 텍스트의 주제를 추출하고, 그 결과를 시각화하여 보여주는 서비스이다. 이 서비스는 사용자가 복수의 문서로 구성된 텍스트 자료를 입력하면, 그 자료를 대상으로 LDA 분석을 수행하여 주제를 추출하고 개별 문서에 적합한 주제를 할당한다. LDA 분석에 필요한 텍스트 자료 전처리 과정(형태소 분석, 불용어 제거, 문서-단어 행렬 구축)은 서비스 내부에 구현되어 있어서 텍스트 자료를 입력하면 자동으로 수행된다. 사용자는 텍스트 자료에 수록된 문서의 주제 분포를 전반적으로 파악할 수 있고, 또한 문서 발간 시점의 시계열에 따라 파악할 수 있다. 현재 이 서비스는 1993~2016년에 발간된 한국환경정책·평가연구원 보고서의 제목, 목차, 요약으로 구성된 텍스트 자료의 토픽을 추출한 결과를 보여주고 있다.‘연구키워드 분석 서비스’는 키워드 추출 및 네트워크 파악 기법을 텍스트에 적용하여 키워드를 추출하고, 키워드 동시발생 테이블 및 키워드 네트워크를 구축하는 서비스이다. 이 서비스는 사용자가 텍스트 자료를 입력하면, 그 자료의 단어-단어 동시발생 테이블을 계산하고, Apriori 알고리듬을 수행하여 키워드 네트워크를 도출한다. ‘연구동향 분석 서비스’와 마찬가지로 텍스트 자료 전처리 과정은 서비스 내부에 구현되어서 자료가 입력되면 자동으로 수행된다. 사용자는 키워드 목록 및 2개 키워드 사이의 관계(Support, Confidence, Lift)를 보여주는 테이블과 여러 키워드 간의 네트워크를 시각화한 관계도를 파악할 수 있다. 현재 이 서비스을 통해 2018년 현재 한국환경정책·평가연구원 도서관 DB에 수록된 연구제목 텍스트의 키워드 분석 결과를 볼 수 있다.2018년 본 연구의 결과는 빅데이터 연구방법론의 장점인 예측의 정확도 및 결과의 재생-확장 가능성을 확인시켜 주었다. 본 연구의 환경 빅데이터 연구 영역의 성과는 빅데이터 연구방법론을 적용하면 기존의 방법론보다는 환경오염 및 환경오염 대응 수용체의 반응에 대한 예측오차를 크게 축소할 수 있음을 보여주었다. 특히 데이터의 규모가 1GB를 상회하는 2개 연구 ‘컨벌루션 신경망을 활용한 미세먼지 예측’, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’과 추정 대상 변수가 극단적인 값을 갖는 2개 연구 ‘데이터 기반 한강 수질 예측모형 개발’, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’에서 이러한 빅데이터 방법론의 예측오차 축소 성과가 두드러지게 나타났다.그리고 본 연구에서 개발한 2개의 연구동향 파악 서비스는 빅데이터 연구방법론과 연구 결과의 재활용 및 확장 가능성을 보여주었다. 2개 서비스 모두 2017년 연구에서 개발되었던 LDA 토픽 추출 알고리듬 및 키워드 파악 알고리듬을 사용하여 구축되었다. 2017년 연구에서는 이들 알고리듬을 특정한 텍스트 분석에서만 사용하였지만, 2018년 연구에서는 이들 알고리듬을 임의의 입력자료에 대해 분석을 수행할 수 있도록 범용성을 확대하였다. 그 결과 기계학습에 관련된 사전지식이 없는 사용자들도 2017년 연구의 성과를 활용할 수 있는 환경이 구축되었다.2018년 연구 중 ‘컨벌루션 신경망을 활용한 미세먼지 예측’ 연구에서 개발한 미세먼지 오염도 예측 알고리듬, ‘데이터 기반 한강 수질 예측모형 개발’ 연구에서 개발한 클로로필-a 농도 예측 알고리듬은 정책수요 파악에 필요한 정보를 제공한다. 이들 알고리듬은 소규모 지역 단위 환경오염 예측치를 실시간으로 제공하기 때문에, 정책대응이 필요한 시점 및 장소를 사전에 인지하여 정책대응 수단을 집중하는 데 필요한 정보를 제공한다. 그리고 ‘기계 학습 기반 환경이슈 감성분류기 개발: 기후변화 중심으로’ 연구에서 개발한 기후변화 관련 SNS 감성분석기는 기후변화 관련 국민 감성을 파악하여 정책 개입의 필요성을 진단하는 도구로 사용할 수 있다.중장기적으로는 이들 3개 알고리듬을 상시 가동할 수 있도록 개편하면 정책의 시행 전후에 이들을 가동함으로써 정책성과를 모니터링할 수 있다. 정책 개입 이전의 2개 예측 알고리듬의 환경오염 예측치는 ‘개입이 없을 경우(Business as usual)’의 예측치를 제공하므로, 이들 예측치와 정책 개입 이후의 실측치를 비교하면 정책 개입의 환경오염 개선 효과에 대한 정량적인 근사치를 얻을 수 있다. 그리고 특정 기후변화 정책 시행 이전과 이후에 기후 변화 관련 SNS 감성분석기를 가동하여 감성 수준을 파악하면, 정책이 국민감성의 호전에 도움이 되었는지 여부를 파악할 수 있다. 3개 알고리듬의 데이터 전처리 과정을 자동화하여 상시적으로 가동할 수 있도록 개편하면 이러한 정책 모니터링을 상시 수행할 수 있다.3년차 이후 본 연구는 이러한 정책 모니터링 기능을 환경정책 전 부문으로 확장하는 방향으로 진행할 예정이다. 구체적으로 환경오염 예측 알고리듬은 대기 및 수질오염 전반을 예측할 수 있는 알고리듬으로 확대 개편하고, SNS 감성분석기 역시 환경정책 전 영역에 대한 감성분석이 가능한 알고리듬으로 확대 개편하고자 한다. 그리고 이들 두 알고리듬을 상시적으로 가동하여 정책수요를 파악하고 정책대응을 모니터링하는 서비스를 개발하고자 한다. This report reports the result from second year research of ‘Big Data analysis: Application to Environmental Research and Service’ project. In this project, we try to take advantage of machine learning in Environmental Research. This project consists of three sub-projects. The first one ‘Big Data Environment Research’, experiments machine learning algorithm to environmental research. The second one ‘Big Data Research Infra’ builds up large scale data collection and analysis facility. The third one ‘Big Data Environmental Service’ develops public environmental service using the results from ‘Big Data Environmental Research’ and ‘Big Data Research Infra’. We planned to spend three years for each sub-project, beginning from 2017. 2018 is the second year of first sub-project ‘Big Data Environment Research’.In 2018, we developed four machine learning algorithms - CNN algorithm predicting 1~8 hours ahead fine-dust pollution. GRU algorithm predicting 1 week ahead chlorophyl-a pollution. Bidirectional LSTM algorithm for sentiment analysis of climate change SNS data, and Boosted Tree algorithm for analyzing the effect of fine-dust pollution to the number of passengers of Seoul subway. Our sentiment analysis algorithm had 92.95% accuracy. Our CNN algorithm for fine dust pollution prediction cut down RMSE of 1 hour ahead estimation to as low as 2.07μg/㎥. Our GRU algorithm for chlorophyl-a pollution prediction had RMSE smaller than the RMSE of Vector Auto Regression by 35.3%. And our Boosted Tree algorithm for subway passenger analysis had RMSE smaller than the RMSE of linear regression by 84.5%. In general, we confirmed that machine learning algorithm had significant advantage in accurate prediction in wide range of environmental research.

      • KCI등재

        서울특별시 세출결산 자료의 빅데이터 R 분석사례 연구

        이종기 한국상업교육학회 2015 상업교육연구 Vol.29 No.4

        빅데이터와 관련한 연구는 경영, 경제 등 인문사회과학 분야에서 먼저 활용이 시작되었고, 현재는 의료 등 과학기술계 전반으로 확산되고 있다. 여러 선진국들이 국가차원의 중요한 전략기술로 인식하고 있으며, 정부에서도 정부 3.0이라는 정책에 근거하여 많은 정부자료를 공개하기 시작하였다. 빅테이터 시대에 주목해야 될 기술 중 빅데이터 분석기술 분야를 우리가 선택하고 집중해야 할 영역으로 판단한다. 본 연구에서는 서울특별시가 정부 3.0 정책에 기초해 공개한 빅데이터인 2007년부터 2013년까지의 7년간의 세출결산자료를 확보하였다. 이를 기초로 빅데이터 분석 프로그램인 R 프로그램을 설치하고 데이터의 전처리 과정을 거친 후, 분석절차에 따라 연구를 진행하였다. 서울특별시의 2007년부터 7년간의 세출 결산자료에 대해, R 프로그램을 이용한 분석결과, 특정 연도의 지방자치단체장 선거 등 정치일정 및 사회적 이슈에 맞추어, 서울시 예산이 집중 지출되었다는 것을 발견하였고, 이러한 결산자료의 지출 분석은 매우 의미 있는 시사점을 제공하고 있다. 본 연구에서는 빅데이터 분석의 사례를 통해, 그 시사점을 논하고 향후 상업교육현장에서도 이같은 빅데이터 교육과정을 개편하고, 신기술을 기반으로 한 미래교육에 투자 할 것을 강조하고자 한다. Research related to Big Data began first utilized in the management and social sciences. Now it has been spreading globally, including medical science and technology. Big data has many developed countries recognized as an important strategic technologies at the national level. The government began to release government data on the basis of the policies of governments 3.0. Technical analysis of Big Data technologies will be noted on the bigdata age is determined as an area we have to choose and focus. This reaearcher secured big data in Seoul special city expenditure settlement seven years data to 2013 data from Big Data published in 2007 on the basis of government policy 3.0. R data analysis program was installed for the research of analysis of seoul city big data. After the pre-processing of data for analysis, it was performed according to the analytical procedure. Related to the expenditure settlement data that seven years of data from 2007 in Seoul, according to the analysis result using the R program, the municipal budget was spent focusing on local government head elections, including political agenda of a specific year. The analysis of these data has provided the settlement is very significant implications. In this study, through the examples of big data analysis, discussing the implications and future commercial educational reform in the curriculum for big data analysis such as this, I would like to emphasize that investing in future education.

      • 의미망 분석을 통한 공공데이터 가치 변화 연구

        이경서,문혜정 한국정책분석평가학회 2018 한국정책분석평가학회 학술대회발표논문집 Vol.2018 No.4

        공공데이터는 정부 3.0을 기점으로 공급자 위주의 정보 개방에서 국민 개개인 중심의 맞춤형 정보 공유의 형태로 변모했다. 정부는 공공데이터의 가치를 극대화하고 재사용을 높이고자 노력하고 있으나 민간 부문의 공공데이터 활용은 아직 미비한 실정이다. 따라서 이 연구는 연도별로 주목받는 공공데이터의 가치 변화를 분석하여 이를 공공데이터 활성화 방안에 적용하고자 했다. ‘공공데이터’를 포함하는 국내 온라인 뉴스와 공공기관 입찰정보를 대상으로 의미망 분석을 실시했으며 도출된 주요 주제어를 공공데이터에 내재된 사회적, 경제적 가치와 연결시키는 작업을 수행했다. 분석 결과 공공데이터 관련 주요 이슈는 ‘양적 개방, 질적 개방, 공공 부문의 활용, 민간 부문의 활용’으로 나뉘었으며, 이는 각각 투명성, 효율성, 참여성, 혁신 가치와 밀접하게 연관성을 보였다. 온라인 뉴스를 시계열 분석한 결과 데이터 양적 수집과 개방을 의미하는 투명성이 가장 높은 수치를 기록했고 시간의 흐름에 따라 혁신이 새로운 가치로 부각되고 있었다. 다만, 민간부문의 활용 역시 정부 주도의 활동이 주를 이루었다. 공공데이터 관련 정부 수요는 효율성의 비중이 높았으며 시간의 흐름에 따라 투명성 중심에서 참여성과 혁신 중심으로 이동하고 있었다. 이 연구가 의미하는 바는 다음과 같다. 첫째, 정부는 직접적인 데이터 활용 관련 활동보다 고수요 데이터 개방을 통해 데이터 사용자들의 자발적인 참여를 유발해야 한다. 둘째, 공공 빅데이터 차원의 활용을 도모하기 위해 기관간 체계적인 데이터 관리 및 공유 방안에 대해 고민해야 한다.

      • KCI등재

        학습분석학적 접근을 통한 방송고 학습자의 학습행태 분석 및 이수 여부에 미치는 영향요인 분석

        이은주 고려대학교 교육문제연구소 2019 敎育問題硏究 Vol.32 No.4

        This study intends to identify learning behaviors of Open High school learners by analyzing accumulated learning log data while operating online class contents of Open High School during the first semester of 2018, and to analyze variables affecting the completion of learners' learning behavior. For this purpose, 998,620 data of 3098 people are finally analyzed by classifying only IDs having all of learner basic data, learning activity data, and operational data among 100,900 log data on the system. As a result of the analysis, Tuesday shows the highest frequency of learning, but there is no significant difference from other days of the week. Next, as a result of analyzing gender and age completion rate, the group with the lowest completion rate is the male group in 30s, and the group with the lowest score on the formative evaluation is the male group in the 30s. As a result of examining the difference in the formative evaluation scores according to the access to March, the results of the formative evaluation are significant according to the access to March. Logistic regression analysis was conducted to find out that the number of learning cycles in March, the average number of learning per session, and the average of formative evaluation are all factors that contributed to the completion. Through this study, it is necessary to prepare a customized learning support service plan according to learner's learning behavior and suggest that additional data should be collected for more indepth analysis of learner's learning behavior. 학업과 관련된 데이터를 수집하여 학습자의 수행을 예측하고 잠재적 쟁점을 찾아내는 데 중점을 두고 있는 학습분석학은 객관적인 데이터를 근거로 수행된다는 측면에서 교육 학습 환경을 바꿀 수 있는 미래 기술로 주목받고 있다. 이에 본 연구에서는 방송고의 온라인 수업 콘텐츠를 2018년 1학기 동안 운영하면서 쌓인 학습 로그 데이터를 분석하여 방송고 학습자의 학습 행태를 규명하고 학습자의 학습 행태 중 이수에 영향을 미치는 변인을 분석하고자 하였다. 이를 위해 시스템 상 로그데이터 100,900개의 데이터 중 학습자 기본 데이터, 학습활동 데이터, 운영 데이터 모두를 갖고 있는 ID만 분류하여 3098명의 961,620개의 데이터를 최종 분석하였다. 분석 결과 요일별 학습 빈도는 화요일이 가장 높은 빈도를 보였으나 다른 요일과 큰 차이는 없었고 시간대별 학습 빈도를 살펴본 결과 주중과 주말 모두 오전보다는 오후 시간대에 학습 빈도가 높게 나타났다. 다음으로 성별, 연령별 이수율을 분석해본 결과 이수율이 가장 낮은 집단은 30대 남성 집단이었으며 형성평가 평균 점수 역시 가장 낮은 집단이 30대 남성 집단이었다. 3월 접속 여부에 따른 형성평가 점수 차이를 살펴본 결과 3월 접속 여부에 따라 형성평가의 점수 차이가 유의미한 것으로 나타났으며 마지막으로 방송고 학습자의 학습 행태 요인 중 이수에 영향을 미치는 독립 변인이 무엇인지 알아보기 위해 로지스틱 회귀분석을 실시한 결과 3월 학습 회차 수, 회차당 평균 학습 횟수, 형성평가 평균 점수 모두 이수에 영향을 미치는 요인인 것으로 분석되었다. 본 연구를 통해 학습자의 학습 행태에 따른 맞춤형 학습 지원 서비스 방안을 마련할 필요가 있으며 학습자의 학습 행태에 대한 좀 더 심도있는 분석을 위해 추가적인 데이터를 수집해야 함을 제안하였다.

      • KCI등재

        텍스트 마이닝 기법을 활용한 지방자치단체 데이터기반행정 활성화 동향 분석

        왕문혜,오혜근,나민주 한국지방자치학회 2023 韓國地方自治學會報 Vol.35 No.2

        The objective of this study is to analyse local governments’ data-based administration revitalization trends. In order to achieve this, the ‘Data-based Administration Revitalization Implementation Plans(DARIP)’ from 17 metropolitan local governments were analysed using text mining method. This study determined what each metropolitan government's data-based administration is promoting, whether it is carried out in accordance with the intent and guidelines of the pertinent laws, and explored implications for data-based administration activation. Below are the key findings of the analysis. Firstly, text analysis revealed that ‘data, big data, analysis, utilization, construction, joint, and public’ appeared frequently. Secondly, as a result of network text analysis, connection centrality was high in the order of ‘data, analysis, big data, utilization, discovery, joint, and system’. Third, network cluster analysis identified five clusters: ‘Building and operating a data collection, analysis, and utilization system’, ‘Enabling joint data registration of public institutions’, ‘Improving local public services through data analysis and utilization’, and ‘Expanding data-based administrative capabilities’. Conclusions were drawn in the final section by comparing these findings to those of earlier research. This study is significant because it used the first DARIP created after the Act on Data-based Administration was passed to scientifically examine the trend of local governments’ data-based administration revitalization. 본 연구의 목적은 지방자치단체의 데이터기반행정 활성화 동향을 분석하는 데 있다. 이를 위해 광역 지방자치단체의 데이터기반행정 활성화 시행계획을 전수 분석하여 데이터기반행정의 추진내용이 무엇인지, 그 내용이 관련 법령의 추진 목적과 방향에 맞게 추진되고 있는지, 그리고 데이터기반행정 활성화를 위한 시사점은 무엇인지를 탐색하였다. 2021년도 17개 광역 지방자치단체의 ‘데이터기반행정 활성화 시행계획’을 수집하였고, 텍스트 마이닝 기법을 활용하여 분석하였다. 주요 분석 결과는 다음과 같다. 첫째, 텍스트 분석 결과 ‘데이터, 빅데이터, 분석, 활용, 구축, 공동, 공공’ 등의 순으로 출현 빈도가 높게 나타났다. 둘째, 텍스트 네트워크 분석 결과 ‘데이터, 분석, 빅데이터, 활용, 발굴, 공동, 시스템’ 등의 순으로 연결중심성이 높게 나타났다. 셋째, 네트워크 클러스터 분석 결과 ‘데이터 수집・분석・활용 시스템 구축・운영’, ‘공공기관의 공동활용 데이터 등록 활성화’, ‘데이터 분석・활용으로 지역공공서비스 개선’, ‘데이터기반행정 추진기반 확충’, ‘데이터기반행정 역량 확충’의 5개 클러스터가 도출되었다. 마지막에서는 이러한 분석 결과를 선행연구와 비교하면서 시사점을 도출하였다. 본 연구는 「데이터기반행정 활성화에 관한 법률」이 제정된 이후 작성된 첫 번째 시행계획을 통해 지방자치단체의 데이터기반행정 활성화 동향을 실증 분석했다는 점에서 의의가 있다.

      • KCI등재

        주성분분석을 이용한 기종점 데이터의 압축 및 주요 패턴 도출에 관한 연구

        김정윤,탁세현,윤진원,여화수 한국ITS학회 2020 한국ITS학회논문지 Vol.19 No.4

        기종점 데이터는 수요 분석 및 서비스 설계를 위해서 대중교통, 도로운영 등 다양한 분야에 서 저장 및 활용되고 있다. 최근 빅데이터의 활용성이 증대되면서 기종점 데이터의 분석 및 활용에 대한 수요도 함께 증가하고 있다. 기존의 일반적인 교통 정보 데이터가 수집장비 수(n) 에 비례하여 데이터양이 증가(a·n)하는 것과는 다르게, 기종점 데이터는 수집지점 수(n)의 증 가에 따라 수집 데이터의 양이 기하급수적으로 증가(a·n2)하는 경향이 있다. 이로 인하여 기종 점 데이터를 원시 데이터의 형태로 장기간 저장하고 빅데이터 분석에 활용하는 것은 대용량의 저장 공간이 필요하다는 것을 고려할 때 실용적 대안으로 여겨지지 않고 있다. 이와 함께 기종 점 데이터는 0~10 사이의 작은 수요 부분에 패턴화된 형태와 무작위 적인 형태의 데이터가 섞여있어 작은 수요가 그룹화되어 발생하는 주요 패턴을 추출하기에 어려움이 있다. 이러한 기종점 데이터의 저장용량의 한계와 패턴화 분석의 한계를 극복하고자 본 연구에서는 주성분 분석을 활용한 대중교통 기종점 데이터의 압축 및 분석 방법을 제안하였다. 본 연구에서는 서 울시와 세종시의 대중교통 이용 데이터를 활용하여 모빌리티 데이터를 분석하고, 모빌리티 기 종점 데이터에 포함된 무작위 성향이 높은 데이터를 제거하기 위해 주성분분석 기반의 데이터 압축 및 복원에 관한 연구를 수행하였다. 주성분분석으로 분해된 기종점 데이터와 원데이터를 비교하여 주요한 수요 패턴을 찾고 이를 통해 압축률과 복원율을 높일 수 있는 주성분 범위를 제안하였다. 본 연구에서 분석한 결과, 서울시 기준 1~80, 세종시 기준 1~60까지의 주성분을 사용할 경우 주요 이동 데이터의 손실 없이 기종점 데이터에 포함되어있는 노이즈를 제거하고 데이터를 압축 및 복원이 가능하였다. Origin-destination data have been collected and utilized for demand analysis and service design in various fields such as public transportation and traffic operation. As the utilization of big data becomes important, there are increasing needs to store raw origin-destination data for big data analysis. However, it is not practical to store and analyze the raw data for a long period of time since the size of the data increases by the power of the number of the collection points. To overcome this storage limitation and long-period pattern analysis, this study proposes a methodology for compression and origin-destination data analysis with the compressed data. The proposed methodology is applied to public transit data of Sejong and Seoul. We first measure the reconstruction error and the data size for each truncated matrix. Then, to determine a range of principal components for removing random data, we measure the level of the regularity based on covariance coefficients of the demand data reconstructed with each range of principal components. Based on the distribution of the covariance coefficients, we found the range of principal components that covers the regular demand. The ranges are determined as 1~60 and 1~80 for Sejong and Seoul respectively.

      • KCI등재

        식품 성분과 관능 데이터의 상관관계 분석 및 시각화 기법

        송지현,김경주,이민수 한국정보과학회 2017 데이타베이스 연구 Vol.33 No.2

        최근 식품 분야에서 생성되는 데이터의 양과 종류가 증가함에 따라 다양한 식품 성분과 관능 데이터 간의 관계 파악을 위한 분석이 필요하다. 본 논문에서는 식품을 구성하는 성분을 분석한 식품 성분 분석 데이터와 식품의 맛과 향을 나타내는 식품 관능 데이터 사이의 상관관계를 분석하였다. 데이터를 다양한 각도에서 분석하고 시각화하기 위하여 데이터 분석 기법 중 상관관계 분석법인 스피어만 상관관계 분석(Spearman correlation coefficient)과 켄달 상관관계 분석(Kendall correlation coefficient)을 수행하였다. 또 분석 결과의 데이터를 직관적으로 파악할 수 있도록 시각화에 유용한 도구인 R을 활용하여 분석 결과를 시각화하였다. 연구에 사용된 데이터는 식품 소스 6종에 대한 12가지 관능 성분 데이터와 20개의 비휘발성 성분 데이터로 구성되어 있고, 식품 성분과 관능 데이터 간의 상관관계 분석에 대한 결과를 시각화함으로써 본 연구에서는가장 중점적으로 다루고자 하는 관능 데이터인 ‘매운향’과 식품 성분들 간의 상관관계를 직관적으로 확인할수 있었다. Recently, as the amount and type of data generated in the field of food industry are increasing, it is necessary to analyze the relationship between various food elements and sensory data. In this paper, we analyzed the correlation between food elements analysis data, which results from analyzing food ingredients, and food sensory data which indicates the taste and flavor of food. The Spearman correlation coefficient and Kendall correlation coefficient were used to analyze and visualize data from various angles. In order to intuitively understand the data of the analysis result, the analysis result is visualized using R, a useful tool for visualization. The experimental data consists of 12 sensory data and 20 nonvolatile data on 6 food sauces. By visualizing the correlation coefficient analysis between food elements and sensory data, we can intuitively confirm the correlation between the food elements and the sensory data 'spicy flavor' that we most focused on.

      • KCI등재

        빅데이터 분석 방법을 활용한 한시 영향관계 분석을 위한 시론

        이병찬(Lee Byong-chan) 어문연구학회 2017 어문연구 Vol.94 No.-

        현재 한시연구는 작품의 자구 하나는 물론 그 사이 행간의 의미까지 세밀하게 해석하는 방식으로 이루어지고 있다. 이는 많은 시간을 요하며 따라서 한정된 작품에 국한하여 연구를 진행할 수밖에 없다. 작가 개인에 대한 연구는 동시대 혹은 전후시대의 문학들과 연관성이 함께 언급될 때 더욱 의미와 가치를 지닌다. 즉 타자와의 영향이나 차별성이 문학사적 의의를 고구하는 중요한 가치척도이다. 그러므로 연구범주를 설정함에, 특정 몇몇을 대상으로 하는 것보다 비교군이 많을수록 그 성과가 의미를 가진다. 이 때문에 연구는 방대한 자료 분석을 기반으로 이루어져야 한다. 그러나 이는 한 개인의 역량으로 불가능한 일이다. 방대한 자료를 분석하는 연구방법의 미비로 인하여, 연구가 다수의 인물이나 작품을 함께 포괄하는 전반적이고 체계적인 분석에 이르지 못하고 있다. 따라서 연구가 결국 연구자 의 연구목적에 의해 미리 한정한 문헌들만을 대상으로 이루어질 수밖에 없는 실정이다. 이러한 문제를 해결하기 위한 방법이 바로 빅데이터 분석이다. 많은 문헌의 처리와 분석이 가능한 빅데이터 분석 방법을 도입한다면 이전에는 시도하지 못했던 개인들의 어휘사용 특성이나 패턴은 물론, 문집들의 상관성과 상호간의 거리, 혹은 고문진보(古文眞 寶)나 두시(杜詩)와의 비교 분석을 통하여 중국 시인들이 우리나라 문인들에게 준 영향의 심도에 대한 수치적 계량화나 구체적 실상에 대한 분석도 가능하다. 그러나 현시점에서 우리가 한문학 자료의 빅데이터 분석을 통하여 얻을 수 있는 결과는 제한적일 수밖에 없다. 한국고전종합DB라는 자료가 확보되어 있으며, 빅데이터 분석 기술 이 발전하고 여러 방면에 응용되고 있지만 실제로 분석 기술을 사용하는데 많은 어려움이 있다. 왜냐하면 빅데이터 분석은 대상 데이터의 가공 여부, 분석의 도구로 사용되는 기초 자료의 확충과 정리, 분석 전문가인 프로그래머와 결과를 활용하고자 하는 한문학 전공자의 정확한 소통과 같은 전제 조건이 충족되지 않는다면 원하는 결과를 얻을 수 없기 때문이다. 본 연구는 이와 같이 제한된 조건임에도 조선 중기의 한시 중 일부를 대상으로 텍스트와 주제어 유사성 분석을 시도하였다. 그리고 수치화하여 도출한 결과가 기존 방식으로 나온 연구 결과, 혹은 일반적인 추론과 어긋나지 않음을 확인하여 빅데이터 분석의 유효 성을 입증하였다. 앞으로 본 연구에서 제시한 그 한계와 문제점을 개선하여 빅데이터 분석을 기반으로 한 연구가 활성화되기를 기대한다. A study on artist individual has more meaning and value when mentioned with the relations with literatures of same period or the post-war period. In other words, differentiation from others is an important measure of value investigating the meaning of literature history. Therefore, the range of research is not a few particular objects and as comparison is more, the outcomes are significant. Therefore, the study must be conducted based on the analysis on massive materials. But, it s impossible with individual capabilities. Because of the insufficient research method to analyze massive materials, the study cannot approach general and systematic analysis including many persons or works together. Therefore, the study cannot help being organized by research purpose of researcher and conducted for only limited literatures. The method to solve the problem is rightly big data analysis. If introducing big data analysis that can treat and analyze lots of literatures, it s possible to measure influence of Chinese poets on our scholars numerically and analyze concrete realities through characteristics or patterns of individual vocabularies that were not tried before, correlations and mutual distance of literature collections, and comparative analysis of gomunjinbo (古文眞寶) or two poems. However, the results of big data analysis of Chinese literature data are restricted at present. Data of Korean classics DB is secured and mention about the possibility of big data analyzing technology is increased. It is tried from several angles, but there are difficulties in using analyzing technology actually. Big data analysis cannot provide desired results if preconditions such as process of objective data, securing and arrangement of basic data used as a tool of analysis, persons majoring in Chinese literature who intend to utilize the results with analytic specialist, programmer, and accurate communication and so on are not satisfied. This research digitized and drew the results through analysis on texts, topic words and similarities for Chinese poems of the middle stage of Joseon in spite of restricted conditions. Therefore, it was confirmed to be same as research results or general inference brought by existing methods. It means that methodological validity utilizing big data analysis to following researches was secured. In the future, the restrictions and problems of this research should be improved and researches based on big data analysis should be vitalized.

      • KCI등재

        정보기술의 발전과 보험법의 문제 - 빅데이터 분석의 발전이 보험요율에 미치는 영향을 중심으로 -

        한기정 ( Han Ki Jeong ) 서울대학교 법학연구소 2021 서울대학교 法學 Vol.62 No.2

        오늘날 빅데이터 분석의 발전으로 인해서 보험산업은 큰 변화를 맞이하고 있다. 즉 빅데이터 분석은 보험의 모집 및 인수, 계약의 유지, 보험금 지급 등 다양한 분야에서 보험업무의 혁신성 및 효율성을 높이고 있다. 이 논문은 빅데이터 분석의 발전이 보험업무에 가져오는 변화 중에서 보험요율의 개별화 및 그 법적 쟁점을 연구함을 목적으로 한다. 종래의 보험요율은 보험수요자별로 개별화되지 않고 평준화되어 있다. 이는 보험자와 보험계약자 사이에 존재하는 정보비대칭에 기인한 것이며, 이로 인해서 위험의 역선택이라는 부작용이 발생한다. 빅데이터 분석은 그러한 정보 비대칭을 줄여줌으로써 보험요율의 개별화를 가능하게 해주고, 그 결과 위험의 역선택을 완화 또는 해소해 줄 수 있다. 이와 같은 긍정적 효과에도 불구하고 빅데이터 분석은 인과관계(causality)가 아니고 상관관계(correlation)를 확인하는 데 그 목적이 있고, 오류 위험 등도 내포되어 있다는 점에서, 기존의 보험통계와는 차이가 있다. 이로 인해서 빅데이터 분석에 의해 개별화된 보험요율이 보험업법 제129조가 규정하는 보험요율의 원칙들에 부합하는지에 대한 법적 검토가 필요하다. 그 하나는 빅데이터 분석에 따라 개별화된 보험요율이 통계에 기초한 보험요율이라고 볼 수 있는지의 문제이다. 다른 하나는 빅데이터 분석에 따라 개별화된 보험요율이 보험계약자 간에 부당한 또는 정당한 사유 없는 차별을 초래하는지의 문제이다. 이러한 법적 쟁점에 대해서는 다음과 같은 결론에 이르렀다. 첫째, 빅데이터 분석에 의해 개별화된 보험요율은 일정한 범위 내에서 통계요율에 포함시키는 것이 필요하다. 이는 보험요율 개별화가 주는 긍정적 효과를 살려서 사회적 후생을 증가시키기 위해서이다. 다만 빅데이터 분석의 발전 수준을 감안하면서 보험요율의 개별화 범위를 구체적이고 개별적으로 조정해 나갈 필요가 있다. 둘째, 빅데이터 분석에 의해 개별화된 보험요율이 보험계약자 간의 차별을 초래할 수 있다. 보험요율의 차별금지는 ①보험계약자 간의 부당한 차별을 일반적으로 금지하는 것과 ② 장애 등 차별금지사항과 관련하여 정당한 이유가 없는 차별을 금지하는 것이 있는데, 양자는 규제의 엄격성 면에서 차이가 있으므로 구분이 필요하다. ①의 경우는 위험률의 차이가 객관적으로 존재해야 차별이 가능하지만, ②의 경우는 이것만으로 부족하고 차별이 불가피하다고 인정되는 예외적인 경우에만 허용된다고 엄격하게 해석해야 한다. ②의 경우 이러한 엄격해석의 입장을 취하게 되면, 빅데이터 분석에 의한 위험률 차이만으로 장애 등에 대해 보험요율을 차별하는 것은 허용되기 어렵다고 해석해야 한다. Today, the development of Big Data Analytics(BDA) has exerted significant impacts on the insurance industry. BDA has enhanced the innovation and efficiency of insurance businesses regarding their solicitation, underwriting and maintenance of insurance, handling of insurance claims and so on. This article focuses on the personalisation of insurance rates and legal issues thereon. The current insurance rates are not personalised up to each insured but standardised without difference. This standardisation is due to information asymmetry between the insurer and the insured, resulting in adverse selections of insurance pool in which more high risks and less low risks are underwritten. BDA enables insurance rates to be personalised by alleviating such an information asymmetry so that adverse selections of insurance pool may be relieved or removed. Despite these positive effects, BDA differs from traditional insurance statistics, in that BDA verifies not the causality but the correlation, and involves risks, such as error risk. Therefore, it is necessary to review legal issues whether personalised insurance rates based upon BDA comply with the principles of insurance rates required by Insurance Business Act sec. 129. One issue is whether personalised insurance rates based upon BDA may be classified as statistical insurance rates. The other issue is whether personalised insurance rates based upon BDA may lead to unjust discrimination or discrimination without legitimate reason among the insured. This article makes the following conclusion. First, insurance rates derived from BDA must be within the range of statistical insurance rates. This is to maximize the optimism caused by the personalised insurance rates and to increase the social welfare. However, it is necessary to consider the BDA’s rate of development when selecting the insurance rates range in detail. Secondly, the personalized insurance rates may be a source of discrimination between the involved parties. The ban on discriminatory insurance rates prohibits the unfair discrimination between the involved parties of the insurance contracts. Furthermore, it bans discrimination of insurance rates on unreasonable grounds, such as disability. The two bans imposed by the law are considered separate because of the difference in strictness. The former discrimination can be allowed if there is an objective difference of the risks. However, the latter discrimination is possible when there is not only such an objective difference but also a separate condition that discrimination is by necessity, not by choice. When we enforce the latter ban strictly, we must conclude that it is difficult to permit the latter discrimination based on the difference of the risks verified by BDA.

      • KCI우수등재

        함수형 자료를 통한 함수형 데이터 분석과 다변량 데이터 분석 비교

        안경민 한국데이터정보과학회 2022 한국데이터정보과학회지 Vol.33 No.5

        함수형 데이터 분석 (Functional data analysis)이란 함수들로 이루어진 자료를 분석하는 이론이다. 특히 시간에 따라 측정되고 관측된 데이터 분석에 있어서 함수형 데이터 분석은 기존의 단순히 점들로 이루어진 다변량 데이터 분석 (Multivariate data analysis)과 다른 접근을 필요로 한다. 즉, 함수형 데이터 분석은 힐베르트 (Hilbert) 공간에서 데이터를 다루기 때문에, 기존의 유클리디안 공간에서 다루어 왔던 다변량 데이터 분석과 이에 맞게 쓰이는 여러 통계 방법론들을 동일하게 적용할 수 없기에 재정의를 해야 한다. 이러한 이유로 함수형 데이터 분석의 다양한 통계 방법론들은 다변량 데이터 분석의 방법론들과 비교했을 때 서로 다른 분석 및 예측 결과를 낳았고, 특히 함수형 자료에 있어서는 월등히 좋은 결과를 도출해 냈다. 하지만 이러한 함수형 자료에 왜 함수형 데이터 분석이 적용되어야 하는지, 그리고 다변량 데이터 분석이 적용되었을 때 그 결과와 성능에 있어서 어떤 차이가 있는지는 크게 다룬 논문이 없다. 따라서 본 논문에서는 다양한 함수형 자료를 이용해서 함수형 데이터 분석과 다변량 데이터 분석을 적용했을 때의 결과와 성능을 회귀 모형을 이용하여 비교 및 분석한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼