RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        기계학습: 대용량/패널자료와 학습분석학 자료 분석으로의 활용

        유진은 ( Jin Eun Yoo ) 한국교육공학회 2019 교육공학연구 Vol.35 No.S

        컴퓨터공학을 비롯한 여러 학문에서 주목을 받고 있는 기계학습 기법은 전자상거래, 유전체학, 자연어 분석, 의료영상처리, 자율주행자동차 등의 다양한 분야에 성공적으로 응용되고 있다. 반면, 기계학습을 이용한 교육 연구는 상대적으로 많지 않으며, 기계학습 자체에 대한 교육 분야 연구자들의 이해 또한 높지 않다. 본 연구는 기계학습의 정의로부터 시작하여 주요 개념인 추론과 예측, 과적합, 편향-분산 상충 관계, 교차검증, 지도학습과 비지도학습 등을 설명하며 기계학습을 전반적으로 개관하였다. 이어서 2019년 현재 교육분야에서 기계학습 기법을 쓴 연구와 학습분석학 자료를 활용한 연구를 정리·분석함으로써, 교육 분야 연구자들의 기계학습에 대한 이해도를 높이고 교육 연구에서 기계학습의 저변을 넓히고자 하였다. 분석 결과, 기계학습 기법 중 지도학습 기법인 벌점회귀모형과 랜덤포레스트가 다양한 교육 대용량/패널 자료 분석에 활용되었으며 비지도학습의 경우 온라인 텍스트 자료 분석 위주로 실시된 것을 확인하였다. 학습분석학 자료의 경우 아직 기계학습 기법이 충분히 활용되지 못한 것으로 보인다. 마지막으로 기계학습을 활용하는 교육 연구의 향후 과제를 교육 대용량/패널자료의 특징과 연계하여 고찰하고, 학습분석학자료 분석과 관련한 기계학습 기법의 활용 방안을 논하였다. Mainly developed in computer engineering/science, machine learning not only has been gaining popularity in academics, but also has been successfully applied to various fields of life including online retail business, genomics/health care, natural language processing, and self-driving cars. Nonetheless, there have been only a handful of machine learning studies in education, and accordingly educational researchers are not well-informed about machine learning. Starting with an overview of machine learning including its definition and key concepts such as prediction and overfitting, this article reviewed machine learning studies in education, which will help improve understanding of and propagate applications of machine learning techniques in the educational research community. Specifically, penalized regression and random forests have been employed to analyze large-scale/panel data as supervised learning, and text mining with LDA (Latent Dirichlet Allocation) has been frequently used as unsupervised learning in the field of education. Applying machine learning techniques to learning analytics data appears to need much improvement. Lastly, future research topics are discussed, particularly for researchers using large-scale/ panel data and learning analytics data.

      • KCI등재

        사용자 건강 상태알림 서비스의 상황인지를 위한 기계학습 모델의 학습 데이터 생성 방법

        문종혁,최종선,최재영 한국정보처리학회 2020 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.9 No.1

        In the context-aware system, rule-based AI technology has been used in the abstraction process for getting context information. However, the rules are complicated by the diversification of user requirements for the service and also data usage is increased. Therefore, there are some technical limitations to maintain rule-based models and to process unstructured data. To overcome these limitations, many studies have applied machine learning techniques to Context-aware systems. In order to utilize this machine learning-based model in the context-aware system, a management process of periodically injecting training data is required. In the previous study on the machine learning based context awareness system, a series of management processes such as the generation and provision of learning data for operating several machine learning models were considered, but the method was limited to the applied system. In this paper, we propose a training data generating method of a machine learning model to extend the machine learning based context-aware system. The proposed method define the training data generating model that can reflect the requirements of the machine learning models and generate the training data for each machine learning model. In the experiment, the training data generating model is defined based on the training data generating schema of the cardiac status analysis model for older in health status notification service, and the training data is generated by applying the model defined in the real environment of the software. In addition, it shows the process of comparing the accuracy by learning the training data generated in the machine learning model, and applied to verify the validity of the generated learning data. 다양한 분야에서 활용되는 상황인지 시스템은 상황정보를 획득하기 위한 추상화 과정에서 규칙 기반의 인공기능 기술이 기존에 사용되었다. 그러나 서비스에 대한 사용자의 요구사항이 다양해지고 사용되는 데이터의 증대로 규칙이 복잡해지면서 규칙 기반 모델의 유지보수와 비정형 데이터를 처리하는데 어려움이 있다. 이러한 한계점을 극복하기 위해 많은 연구들에서는 상황인지 시스템에 기계학습 기술을 적용하였으며, 이러한 기계학습 기반의 모델을 상황인지 시스템에 사용하기 위해서는 주기적으로 학습 데이터를 제공해야 한다. 이에 기계학습 기반 상황인지 시스템에 대한 선행연구에서는 여러 개의 기계학습 모델을 적용하기 위한 학습 데이터 생성, 제공 등의 과정을 보였으나 제한된 종류의 기계학습 모델만을 적용 가능하여 확장성이 고려되어야 한다. 본 논문은 기계학습 기반의 상황인지 시스템의 확장성을 고려한 기계학습 모델의 학습 데이터 생성 방법을 제안한다. 제안하는 방법은 시스템의 확장성을 고려하여 기계학습 모델의 요구사항을 반영할 수 있는 학습 데이터 생성 모델을 정의하고 학습 데이터 생성 모듈을 바탕으로 각각의 기계학습 모델의 학습 데이터를 생성하는 것이다. 시스템의 확장성의 검증을 위해 실험에서는 노인의 건강 상태 알림 서비스를 위한 심박상태 분석 모델을 대상으로 한 학습데이터 생성 스키마를 기반으로 학습데이터 생성 모델을 정의하고 실환경에서 정의된 모델을 S/W에 적용하여 학습데이터를 생성한다. 또한 생성된 학습데이터의 유효성을 검증하기 위해 사용되는 기계학습 모델에 생성한 학습데이터를 학습시켜 정확도를 비교하는 과정을 보인다.

      • KCI등재

        기계학습의 소개: 예측모형을 위한 지도학습 이론을 중심으로

        이선복 이화여자대학교 교육과학연구소 2022 교육과학연구 Vol.53 No.3

        Recent developments in machine learning and information and communications technology have dramatically improved the accuracy of predictive models. Therefore, various fields in social science including psychology are paying more attention to predictive models based on machine learning. The goal of this article was to introduce the key concepts and theoretical framework of supervised learning to those researchers who do not have much background on the topic. To that end, this article introduced supervised learning with three main themes. First, supervised learning can be defined based on the framework of a traditional optimization problem. Second, the key task of supervised learning is to learn the relationships and patterns that can be generalized to previously unseen data. Third, optimal predictive models can be meaningfully defined only when discussed in relation to the ultimate goals for using the models. Focusing on these main themes, this article introduced the definition of machine learning, statistical learning, performance metrics, ensemble methods, class imbalance data, and representation learning. In the discussion, some limitations of a machine learning approach were also discussed. 최근 기계학습과 정보통신기술의 발달로 인해 예측모형의 정확도가 크게 향상되었다. 이에 따라 교육 분야를 포함한 사회과학 전반에 걸쳐 지도학습에 기반한 예측모형에 관한 관심이 점차 높아지고 있다. 이 논문의 목적은 지도학습을 처음 접하는 사회과학 분야 연구자들에게 지도학습의 기본개념과 이론적 틀을 소개하는 것이다. 이를 위해 이 논문은 다음과 같은 핵심 주제를 중심으로 지도학습을 소개하고자 하였다. 첫째, 지도학습은 전통적인 최적화 문제로 정의된다. 둘째, 지도학습의 가장 큰 과제는 데이터로부터 일반화 가능한 관계나 패턴만을 학습하여 학습된 관계나 패턴이 새로운 데이터에도 잘 적용될 수 있도록 하는 것이다. 셋째, 최적의 예측모형이란 예측모형을 사용해서 이루고자 하는 목적과 관련지어서만 의미 있게 정의될 수 있다. 이러한 핵심 주제를 중심으로 이 논문에서는 기계학습의 정의, 인공지능에서 학습의 필요성, 통계적 학습이론, 지도학습의 다양한 성능평가지표, 앙상블 방법, 클래스 불균형 데이터, 지도학습의 학습과정, 표현학습을 소개하였다. 논의에서는 지도학습에 기반한 예측모형을 교육 분야 연구에 적용할 수 있는 방법과 한계점에 대해 논의하였다.

      • KCI등재후보

        개인정보가 보호되는 동형암호기반 금융데이터분석

        천정희,어윤희,김재윤 한국금융정보학회 2018 금융정보연구 Vol.7 No.1

        Recently, as machine learning research has been developed, big data analysis gets the limelight. This is because of the increased network connectivity which makes it possible to collect vast amounts of high-quality data as the ingredients of machine learning. Data including sensitive privacy from multiple institutes should be merged and utilized for effective machine learning, but the process can cause a critical problem of private data leakage. This work proposes ‘Homomorphic Machine Learning’ as an information technology solution for a contradiction problem between preserving privacy and making full use of data, which performs machine learning with encrypted data without decryption. Homomorphic encryption is cutting-edge cryptographic technology which enables any operations on computers with encrypted data. It is secure against quantum computer attack. In the situation of data analysis with sensitive private data using homomorphic encryption, machine learning can be performed with no worry of privacy leakage or data loss. Specifically, this work introduces concepts of homomorphic encryption and machine learning with minimal mathematical description for understanding homomorphic machine learning. Also, based on recent works, we investigate possibility of commercialization by analyzing effectiveness of homomorphic encryption which is major obstacle for commercialization. Credit rating requires analysis of private data. As major application, this work shows process of calculating credit rating from encrypted private data without danger of private data leakage. 최근 기계학습(machine learning) 기술의 발전으로 빅데이터 분석이 각광을 받고 있다. 네트워크 연결성의증대로 방대한 양의 데이터의 수집이 가능해지면서 기계학습 기술에 기반이 되는 양질의 빅데이터 수집이용이해진 까닭이다. 기계학습이 효과적이려면 이종기관에서 수집된 데이터들을 민감한 개인정보를 포함하여병합하고 활용하여야 하는데 이 과정에서 개인정보유출의 문제가 심각하게 대두되고 있다. 본고에서는 개인정보보호와 빅데이터 활용이라는 상충된 목표를 달성할 수 있는 정보기술적 해법으로 암호화된데이터상에서 복호화 없이 기계학습을 수행하는 동형기계학습(homomorphic machine learning) 기술을 소개한다. 동형암호(homomorphic encryption)는 평문을 암호화한 상태에서도 복호화 없이 컴퓨터가 수행하는 모든계산이 가능한 암호기술로서 특히 양자컴퓨터 시대에도 안전한 최신암호기술이다. 동형암호기술을 적용하면민감한 개인정보를 포함한 데이터분석에서도 개인정보 유출이나 데이터손실 없이 기계학습을 수행할 수 있다. 구체적으로는 동형기계학습의 포괄적 이해를 위해 동형암호와 기계학습 기술을 최소한의 수학적 묘사로 개념적으로 소개하도록 한다. 또한 최근 연구결과들을 토대로 실용화에 가장 큰 걸림돌로 여겨지고 있는 동형기계학습의효율성을 분석하여 실용화 가능성을 타진해본다. 또한 민감한 개인정보를 기반으로 한 데이터분석이 필요한대표적 사례로 신용정보계산에 이를 적용하여 암호화된 개인정보를 기반으로 개인정보 유출의 위험 없이신용점수를 계산하는 과정을 제시한다.

      • KCI등재

        회계이익예측을 위한 기계학습 성과 비교

        정우준 한국세무학회 2019 세무와 회계저널 Vol.20 No.6

        Many predict that the fourth industrial revolution will be triggered by the emergence of big data and machine learning(or artificial intelligence). In this context, big data is often likened to crude oil and machine learning is likened to the crude oil processing technology, and the concept of data science has also emerged, referring to scientific methodologies or processes that extract useful information for decision-making. In order to cope with such a trend, even in the field of accounting, researchers are struggling to introduce big data and artificial intelligence, but there are not many studies yet. In particular, it is difficult to find studies related to them in Korea. There have been enough studies that accounting earnings have the information contents that makes a difference in accounting information users’ decision making as a fundamental variable that determines the firm’s value. However, many studies have not been conducted that relate to the development of a predictive accounting earnings forecasting model. In this study, the accounting earnings forecasting model developed in the previous study was reinterpreted in the context of machine learning, and compared its performance with the predictive(machine learning) models known to represent further higher predictive performance to examine the possibility of introducing machine learning techniques in forecasting accounting earnings. To achieve the objective of this study, all 152 financial ratios for closing corporations in December were extracted and utilized from 2009 to 2018 among KOSPI companies belonging to the manufacturing sector provided by TS2000 of the Korea Listed Companies Association. This study reinterpret the findings of Ou and Penman(1989) that used the logistic model basically in the context of machine learning, and the predictability of these techniques was compared by adding the most commonly used models such as tree model, random forest model, and boosting method. As a result of this studies, the predictability difference between the models are statistically significant in overall, and the boosting technique with the highest predictive performance has about 10% higher predictive power than tree model that has lowest predictive power. These results are meaningful in that it is possible to provide more accurate accounting earnings forecast information using machine learning techniques, and it is expected this research to be the basis for the study using machine learning in various accounting research fields other than accounting earnings forecasting. 빅데이터와 기계학습 또는 인공지능의 대두로 4차 산업혁명이 촉발될 것으로 예견되고 있다. 이런 맥락에서 빅데이터는 원유로, 기계학습 등은 이 원유를 가공하는 기술로 비유되기도 하며, 의사결정에 유용한 정보를 추출하는 과학적 방법론 또는 프로세스를 지칭하는 데이터 과학이라는 개념도 등장하였다. 이와 같은 흐름에 대응하고자 회계학계에서도 빅데이터와 인공지능 등의 도입에 고심하고 있으나 아직 많은 연구가 이루어지지는 않은 것으로 파악된다. 특히, 국내에서는 이와 관련된 연구는 찾아보기 어려운 것이 현실이다. 회계이익이 기업가치를 결정하는 근본 변수로써 회계정보이용자의 의사결정에 차이를 가져오는 정보력을 가진다는 연구는 충분히 이루어졌으나 예측 성능이 좋은 회계이익예측 모형의 개발과 관련된 연구는 많이 이루어지지 않은 것으로 판단된다. 본 연구에서는 기존에 개발된 회계이익예측 모형을 기계학습 맥락에서 재해석하고, 추가로 보다 높은 예측 성능을 나타낸다고 알려져 있는 예측 모형들과 그 성과를 비교하여 회계이익예측에 기계학습 기법의 도입 가능성을 검토하였다. 본 연구의 목적을 달성하기 위해 제조업에 속하는 KOSPI 상장 기업 중 12월 결산 법인에 대한 재무비율을 추출하여 활용하였다. 로지스틱 모형에 기반한 Ou and Penman(1989)의 연구 내용을 바탕으로 이를 기계학습 기법으로 재해석한 모형을 기준으로 하고, 기계학습에 가장 일반적으로 사용되고 있는 나무 모형, 랜덤포레스트 모형, 부스팅 기법을 추가하여 이들의 예측성과를 비교하였다. 연구의 결과, 모형들간 예측성과 차이가 전반적으로 통계적 유의성을 가지며, 가장 높은 예측 성능을 나타낸 부스팅 기법을 이용한 경우 가장 낮은 예측력을 보이는 나무 모형에 비하여 약 10% 정도 더 높은 예측력을 갖는 것으로 나타났다. 이와 같은 결과는 보다 정확한 회계이익예측 정보를 기계학습 기법을 활용하여 제공할 수 있다는 의의가 있으며, 회계이익예측 이외의 다양한 분야에서도 기계학습을 활용한 연구의 토대가 되기를 기대한다.

      • 환경 빅데이터 분석 및 서비스 개발 Ⅳ

        강성원,진대용,홍한움,고길곤,임예지,강선아,김도연 한국환경정책평가연구원 2020 사업보고서 Vol.2020 No.-

        Ⅰ. 서론: 연구의 필요성 및 목적 ❏ 정책수요 파악, 정책 시의성 평가, 정책 유효성 평가에 사용할 수 있는 ‘환경정책 모니터링 시스템(가칭)’ 구축 ㅇ 환경정책 모니터링 시스템: 기계학습의 장점인 예측의 정교함 및 실시간 데이터 수집-분석-결과 갱신 가능성을 환경정책 연구에 접목 ㅇ 환경오염 통합예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터베이스 3개 분석도구로 구성 - 환경오염 통합예측: 다양한 환경오염물질 오염도 예측 주기적 반복 - 실시간 환경 텍스트 분석: 환경 텍스트 정보추출 및 감성분석 주기적 반복 - 질문중심 데이터베이스: 주요 환경이슈 목록 - 이슈 관련 데이터 분석을 연계하여 주기적으로 결과 실시간 업데이트 ㅇ 정책수요 파악: 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악 ㅇ 정책 시의성 평가: 민간 텍스트 분석 결과와 환경정책 생산자 텍스트 분석 결과를 비교하여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부를 진단 ㅇ 정책 유효성 평가: 환경오염 예측 알고리즘의 정책 시행 전 예측치와 시행 후 실측치, 정책시행 전후 질문중심 데이터맵 분석 결과, 정책시행 전후 민간 텍스트 감성분류 결과 비교 ❏ 2020년 연구목표: ‘환경정책 모니터링 시스템’ 의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구내용을 확장 ㅇ 1기 (2017~2019년) 연구의 성과를 계승하면서 기계학습 방법론의 약점인 모형의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구 확장 - 1기 ‘기계학습 방법론’ 적용 연구 → 2기 ‘대용량 데이터’를 이용한 환경정책 연구 - 방법론: 1기 ‘기계학습’ → 2기 기계학습 + 전통적 통계학 기법(Frequentist/Bayesian) ㆍ모형의 단순화: 개별 변인이 분석 결과에 미치는 영향력 분석 기능 강화 ㆍ중장기 예측이 가능한 연구, 인과분석이 가능한 연구 추구 ❏ 연구내용: 환경정책 모니터링 시스템 구성요소 연구 4건, 개별연구 2건 수행 ㅇ 환경정책 모니터링 구성요소: 기존 구성요소의 방법론 및 분석 대상 확대 - 환경오염 예측 (2건): ‘미세먼지 고농도 현상 발생확률 추정’/‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’ - 환경 텍스트 분석: ‘환경 텍스트 감성 분석기 구축 및 활용’ - 질문 중심 데이터베이스: ‘기후변화 이슈 분석 및 질문중심의 데이터맵 도출’ ㅇ 개별연구: 수용체 연구 1건, 신재생에너지 연구 1건 추진 - 수용체 연구: ‘대기오염이 COPD 환자 사망에 미치는 영향’ - 신재생 에너지 연구: ‘태양광 발전 발전량 예측 알고리즘 구축’ Ⅱ. 미세먼지 고농도 현상 발생확률 추정 ❏ 서울지역 25개 측정소 초미세먼지 오염도가 ‘매우 나쁨’(76 이상)이 될 경우를 예측하는 Qunatile Regression 기반 통계모형 개발 ㅇ Qunatile Regression 모형을 Extreme value가 많은 자료에 적합하게 조정 - Extreme Conditional Qunatile Regression Model + Variable Selection (LASSO) ❏ 서울시 대기질 및 기상 정보를 이용하여 2015~2020년 봄 4시간 평균(1일 6개 시간대) PM<sub>2.5</sub> 오염도 예측 ㅇ 설명변수: 동시간대 및 1시간 이전 CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> 오염도, 강수량, 온도, 습도, 풍향, 풍속/1시간 이전 PM<sub>2.5</sub> 오염도 ㅇ 2015/01/01~2018/03/04 자료로 추정한 모형으로 2018/03/04~2020/05/29 예측 ❏ 측정소에 따라 Sensitivity 88.9%~100.0%을 달성하면서 False Positive는 6.0% ~17.1%로 억제 ㅇ Sensitivity = 매우 나쁨 예측/실제 매우 나쁨, False Positive = 매우 나쁨 예측/실제 나쁨 이하 측정 ㅇ 강동구(88.9%)를 제외한 24개 측정소에서 Sensitivity 90% 이상 ❏ RandomForest, Supporting Vector Machine, GRU 대비 11.3%p Sensitivity 향상 ㅇ 강서구 예측의 Sensitivity RandomForest(65%) < SVM(73.3%) < GRU(81.0%) < 본 연구 구축 모형(92.3%) ❏ 동시간대 CO 오염도, O<sub>3</sub> 오염도, PM<sub>10</sub> 오염도, 풍향, 1기 전 초미세먼지 오염도가 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 증가하는 경향 발견 ❏ 동시간대 강우량 및 풍속, 1기 전 강수량 및 풍속이 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 하락하는 경향 발견 Ⅲ. Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측 ❏ PM2.5 농도에 영향을 미치는 기상 및 공간정보 데이터를 반영하는 Graph-GRU 알고리즘 개발 ㅇ 과거 정보(temporal data)와 공간정보(spatial data)를 함께 활용할 수 있는 3차원 학습데이터세트 구축 - 예측대상: 남한지역 측정소 포함 0.125° × 0.125° Grid (12.5km × 12.5km)의 3-Hour PM<sub>2.5</sub> 오염도 평균값 - 입력자료: 대기오염 오염도, 기상, 고도 ㆍtraining set: 2015/01/01~2015/12/31 ㆍvalidation set: 2016/01/01~2016/12/31 ㆍtest set: 2017/01/01~2017/12/31 ㅇ 알고리즘: Graph - GRU 알고리즘 활용 - Node attribute: 기상 및 지리정보, 대기오염 - Edge attribute: 측정소 간 미세먼지 오염물질 배출량의 영향 ㆍ거리, 풍속, 풍향을 반영한 ‘영향’ 평가 함수 적용 - Adjacency Matrix: 거리: 300km, 고도: 1200m 미만 threshold 값 설정 ❏ 3시간~72시간 이후 표준제곱근오차 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup>로 억제 ㅇ 과거 정보 표준제곱근오차 축소 효과는 0.12μg/m<sup>3</sup>, 공간정보 표준제곱근오차 축소 효과는 0.16μg/m<sup>3</sup> Ⅳ. 환경 텍스트 감성분류기 구축 및 활용 ❏ 환경 SNS 데이터 수집 - 감성분석 - 결과 발신을 주기적으로 반복하는 ‘환경 텍스트 감성분류기’ 구축 ㅇ 2018~2019년 개발 기후변화 감성분류기를 환경 전 분야로 확장-준지도 학습을 이용하여 수집한 학습 데이터 14만 건을 추가하여 감성분류 정확도 제고 ㅇ 감성분류 결과의 추이를 시각화 하여 확인할 수 있는 web 기반 user interface 제공 ❏ 준지도 학습을 이용하여 학습 데이터를 기존 5만 건에서 18만 건으로 확대하여 감성 분류 정확도 제고 ㅇ 학습데이터 추가: 환경 SNS 텍스트 650만 건을 수집하고 기존 기후변화 감성분류기에 적용하여 긍정/부정 확률이 매우 높은 자료 14만 건을 추출 ㅇ 성능 향상: 기존 data 분류 정확도 1%p(78.7% → 79.7%) 향상 ❏ 환경정책 분야별 감성분류 Precision 66%~92%, Recall 73%~81% 달성 ㅇ Precision = 실제 부정/부정 판정, Recall(Sensitivity) = 부정 판정/실제 부정 ㅇ 폐기물 분야는 Precision, Recall이 모두 낮아서 지도학습을 통한 정확도 제고 필요 ❏ 기간, 검색어를 특정하여 구분한 SNS 데이터의 감성분류 결과를 실시간으로 확인할 수 있는 web 기반 user interface를 구축 ㅇ ‘부정’ 감성의 SNS 데이터로부터 키워드 빈도 및 네트워크를 추출하여 ‘부정’ 감정의 원인을 파악할 수 있는 기능을 부여 Ⅴ. 기후변화 이슈 분석 및 질문중심의 데이터맵 도출 ❏ 위계별로 정리한 기후변화 이슈와 각 이슈 관련 데이터 분석을 연계하고 데이터 분석 결과를 실시간으로 업데이트 하는 데이터맵 구축 ㅇ 텍스트 분석에서 이슈를 도출하는 이슈 선정 모듈과 데이터를 연계하는 데이터 분석 모듈을 구축 ❏ 이슈 선정 모듈: 기후변화 관련 텍스트 수집 → 주제 추출 → 질문 식별 → 질문 구조화 수행 ㅇ 텍스트: 2012~2019년 연구보고서/고위공직자 연설문/보도자료/국회회의록 /국회기후변화포럼/Dbpia논문 국문 초록/네이버 신문(12개 일간지) ㅇ 주제추출: 상관토픽모형(CTM)을 사용한 10개 주제식별 및 주제 간 관계 도출 ㅇ 질문식별: 텍스트 랭크(TextRank)로 추출한 중요 문장을 정제하여 개별 질문 도출 ㅇ 질문 구조화: 개별 질문을 주제에 할당하고 주제 간 관계를 반영하여 질문을 구조화 - 주제 간 관계: 상관토픽 모델링 상관계수, 동적 시간 와핑(dynamic time warping) 시계열 패턴 유사도, 전문가 설문조사 반영 - 5개 범주로 재분류: 기후변화 공동대응/기후변화 적응/온실가스 감축/에너지와 환경/도시환경과 시민 ❏ 데이터 분석 모듈: 명제화 된 이슈에 대한 정보를 제공할 수 있는 data source와 분석모형 연계 ㅇ 관련 자료의 실시간 update가 가능하도록 자료 원천과 직접 연계하는 방식을 사용 ㅇ 시계열 자료의 절대 추세 및 계절변동 조절 추세 분석 Ⅵ. 대기오염이 COPD 환자 사망에 미치는 영향 ❏ 사망 전 1년, 5년 간 대기오염 노출이 COPD 환자 사망위험에 미치는 영향 분석 ㅇ 분석대상: 2009~2018년 전국 40세 이상 COPD 환자 ㅇ 분석기법: Kriging과 Cox Proportional Hazard model - Kriging을 사용하여 측정소 오염도 자료로부터 읍면동 오염도 추정 ❏ 국민건강보험공단 맞춤형 DB와 대기오염 측정 데이터를 결합하여 데이터 생성 ㅇ 환경오염 관련 독립변수: event 발생/종료 1년 전, 5년 전 거주지 평균 PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> 오염도 - PM<sub>10</sub>: 일평균, O3: 일별 최고 8시간 평균, NO<sub>2</sub>: 일평균 (O<sub>3</sub>, NO<sub>2</sub>의 경우 ppb를 ㎍/m3으로 변환) ㅇ 개인 특성 관련 독립변수: 성별, 연령, 소득, 동반질환지수, COPD 외래중증악화, BMI, 흡연 ㅇ 종속변수: 사망을 1, 생존을 0으로 표기한 사망 여부 ❏ 사망 전 1년, 5년 간 O<sub>3</sub> 오염도가 높은 지역에서 산 COPD 환자는 사망위험이 소폭 증가하였음을 확인 ㅇ Hazard Ratio of O<sub>3</sub>: 1.003(1년), 1.004(5년) Ⅶ. 딥러닝 기반 태양광발전량 예측 ❏ 기상정보를 활용하여 영암 F1 발전소 태양광발전량 예측 LSTM 알고리즘 개발 ㅇ 1시간, 12시간 평균 낮 시간대 발전량을 예측: 주기성이 심한 비정상(non-stationary) 시계열 ❏ 1시점 이전 태양광발전량 및 기상정보를 입력자료로 사용 ㅇ 기상정보: 목포 기상관측소 시간별 기온, 강수량, 습도, 일사량, 전운량 ㅇ 2017.1.1~2019.6.30 자료 중 2017.1.1~2018.6.30 자료를 학습자료로 사용하여 모형을 추정하고 2018.7.1~2019.6.30 자료를 예측 ❏ RNN 기반 LSTM 알고리즘을 사용하여 모형을 구축하고 직전 3시점 이동평균(Moving Average) 및 ARIMA 모형과 예측력 비교 ❏ 1시간 예측 평균제곱근오차를 표준편차의 36.9%, 12시간 평균 예측 평균제곱근오차는 표준편차의 51.1%로 억제 ㅇ 직전 3시점 이동평균 예측오차/표준편차의 71%, ARIMAX 예측오차/표준편차의 45% 수준으로 예측오차/표준편차를 억제 Ⅷ. 연구성과 및 정책적 시사점 ❏ 연구성과: 환경정책 모니터링 시스템 구성요소 구축 및 신규 성과 축적 ㅇ 환경오염 종합예측 시스템 구성요소 확대 및 심화 - 환경오염 종합예측 알고리즘: 설명 가능성을 보완하고 예측 시차를 연장하여 활용 가능성을 제고 ㆍ‘미세먼지 고농도 발생확률 추정’: coefficient estimation이 가능하면서 예측성과가 Deep Learning 모형과 경쟁력 있는 Quantile Regression 모형을 개발 ㆍ‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’: 12시간 예측오차를 2019년 개발 CNN 기반 모형의 1시간 예측오차와 유사한 7.64g/m<sup>3</sup>로 유지 - 실시간 환경 텍스트 분석 알고리즘: 환경 전 분야 실시간 SNS 감성 분석 및 부정 감성 원인 분석 가능 - 질문중심 데이터맵: 미세먼지에 이어 기후변화로 적용 범위를 확대 - 정책 현황 파악 상황판 기능 ㅇ 3개 알고리즘, 1개 질문중심 데이터맵 신규 구축 - 초미세먼지 고농도 현상 예측 Quantile Regression 모형, 초미세먼지 오염도 예측 Graph-GRU 모형, 태양광발전량 예측 RNN 모형/기후변화 Data Map ㅇ 텍스트 분석 인프라 확장: 실시간 환경 텍스트 분석 Web Interface 개발 ❏ 정책적 시사점: 환경정책 모니터링 기능을 강화하였고 대기오염 건강위험을 정량화하였으며 신재생에너지 발전 인프라의 기초를 제공 ㅇ 환경정책 모니터링 기능 강화: 정책 현황 파악 및 선제적 정책개입 관련 정보 제공 기능 강화 - 실시간 환경 텍스트 분석: 국민 감성이 부정적인 환경정책 분야를 실시간으로 파악 가능 - 기후변화 질문중심 데이터맵: 기후변화 현황 실시간 파악 기능 제공 - ‘기후변화 상황판’ 기능 - 초미세먼지 오염도 예측의 시차를 연장하고 기초적 인과분석 기능 확보 ㆍGraph-GRU 모형: 예측 시차를 연장하여 선제적 정책 개입이 가능한 시차를 확보 ㆍQuantile Regression 모형: 향후 오염원 및 정책 관련 Data를 추가하면 정책영향 분석 도구로 활용 가능 ㅇ 대기오염 장기노출의 건강위험을 정량화 하여 대기오염 억제정책의 정량적 편익 도출 근거 마련 ㅇ 태양광발전량 예측 기능을 강화하여 신재생에너지 발전에 필요한 스마트 그리드 구축 인프라 제공 Ⅰ. Background and Aims of Research ❏ We continue to build up ‘Environmental Policy monitoring System’ dedicated to periodically identify environmental policy needs and assess timeliness and effectiveness of environmental policy as we did last year ㅇ Environmental Policy monitoring System apply prediction accuracy and real-time data collection-analysis-diffusion capability of Machine learning to environmental policy research ㅇ Our ‘Environmental Policy monitoring System’ consists of three components: ‘Deep Learning Based Pollution Prediction algorithm’, ‘Real Time Environmental Text Analysis algorithm’, ‘Issue Based Database’ - Deep Learning Based Pollution algorithm: Periodically update various pollution prediction - Real Time Environmental Text Analysis algorithm: Periodically summarise environment related text data and sentiment analysis ㆍText summary: abstract keywords and keyword network from texts produced by environmental policy provider and environmental policy consumers ㆍSentiment analysis: Real-time collection and sentiment analysis of SNS related to all subfield of environment - Issue Based Database: Key environmental issue network connected with data analysis for each issue updating real-time ㅇ Policy need Identification: Detect environment policy areas and regions in need of intervention from the predictions of ‘Deep Learning Based Pollution Prediction algorithm’, the text analysis results of ‘Real Time Environmental Text Analysis algorithm’, and the data analysis results of ‘Issue Based Database’ ㅇ Timeliness assessment: check if the temporal pattern of keywords analysis result on policy provider text and the temporal pattern of keywords analysis results on policy consumer are consistent ㅇ Effectiveness assessment: Check Pollution improvement, SNS Sentiment improvement, and Environmental Issue improvement after policy execution ❏ In 2020, we tried to improve interpretability of ‘Environmental Policy monitoring System’ ㅇ While utilizing the advantage of deep learning we found in period 1(2017~2019), we tried to reduce complexity and strengthen interpretability ㅇ In period 1, we focused on ‘apply everything related to big data analysis to Environment policy research’ From 2020, we are going to focus on ‘Environmental Policy Research using large scale data’ ㅇ Regrading methodology, we stick to machine learning in period 1. From 2020, we are going to be more flexible and try to include traditional frequentist and Bayesian statistical methods ㆍWe are going to use simpler models to improve our understanding on feature importance ㆍWe are going to build models capable of longer -term prediction and models with more interpretability ❏ In 2020, we build four algorithms for ‘Environment Policy Monitoring System’ and perform two independent researches ㅇ For ‘Environment Policy Monitoring System’, we expand the methodology and scope of previous components - We added two fine particle estimation algorithms in `Fine particle high concentration event prediction’ and ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’ - In ‘Environmental text sentiment analysis algorithm’, we expanded sentiment analysis of environment related SNS to all subfield of environment - In ‘Climate change issue based database’, we constructed new issue based database on climate change ㅇ On two important issues that cannot be integrated to ‘Environment Policy Monitoring System’, we did independent research - In ‘The impact of air pollution long-term exposure to mortality of COPD patients’,we estimated the effect of long-term exposure of air pollution on the death risk of COPD patients using NHI (National Health Insurance) Data - In ‘Solar electricity generation prediction’, we constructed an RNN based algorithm predicting solar electricity generation of F1 power plant Ⅱ. Fine Particle High Concentration Event Prediction ❏ We built a quantile regression based prediction algorithm to predict ‘extremely bad(76+)’ event of PM<sub>2.5</sub> in 25 air pollution monitoring station in Seoul ㅇ We adjusted quantile regression model to analyze data with extreme values - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution decreases when contemporary and 1 time ahead rainfall, windspeed increases Ⅲ. PM<sub>2.5</sub> Estimation and Prediction Using Graph-GRU Algorithm ❏ We built Graph-GRU albright utilizing weather and geography information to prediction PM<sub>2.5</sub> pollution ㅇ We construct a 3 dimension dataset consists of temporal and spatial data - Our dependent variable is 3 hour average PM2.5 concentration of 0.125° × 0.125° Grid (12.5km x 12.5km) containing air-pollution monitoring stations in South Korea - Our independent variables are weather data, air pollution data and height data ㆍWe trained our model with data from Jan. 1st. 2015 to Dec. 31th. 2015, validated with data from Jan. 1st. 2016 to Dec. 21th. 2016, and tested with data from Jan. 1st. 2017 to Dec. 21th. 2017, ㅇ We used Graph-GRU algorithm - For node attributes, we used weather data, spacial data, and air pollution data - To measure edge attributes, we constructed a function evaluating impact of air pollutant emission between air pollution monitoring stations ㆍThis function evaluates impact of air pollutant emission between air pollution monitoring stations using distance, wind speed, and wind direction - For adjacency Matrix, we used threshold of distance of 300km or height of 1,200m ❏ RMSE of our model in 3 hour~72 hour prediction was 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup> ㅇ Temporal information reduced RMSE by 0.12μg/m<sup>3</sup>, and spacial information reduced RMSE by 0.16μg/m<sup>3</sup> Ⅳ. Environmental Text Sentiment Analysis Algorithm ❏ ‘Environmental text sentiment analysis algorithm’ periodically performs collection-analysis-result distribution on SNS text regarding environment ㅇ We expanded climate change sentiment analysis algorithm we build in 2018~2019 to all subfield of environments, and trained with new 140 thousands SNS text training data labeled by semi-supervised learning to improve accuracy ㅇ We constructed web based user interface to visualize sentiment analysis results over time ❏ To improve accuracy, we increase the size of our training data from 50 thousand to 180 thousand using semi-supervised learning ㅇ We collected 6.5 million SNS text, and applied 2018~2019 version climate change sentiment analysis algorithm. We collected 140 thousands cases with high positive/negative sentiment score, which we added to training data. We kept 10 thousand cases for testing ㅇ With this new training data, the accuracy of sentiment analysis improved by 1%p: From 78.7% to 79.7% ❏ Sensitivity of our newly trained model was 66~92%, and Recall of our newly trained model was 73%~81%, according to subfield ㅇ ‘Waste’ field had the lowest Sensitivity and Recall. This field needs supervised learning approach to improve overall accuracy ❏ We built web based user interface to visualize sentiment analysis results with user option of keyword search and period choice ㅇ Our user interface also abstract keyword network of SNS of negative sentiment, which should give insights on the cause of negative sentiment Ⅴ. Climate Change Issue Based Database ❏ We built a datamap on Climate change consists of hierarchically organized climate change issue network and data analysis linked to each issue in the network. This datamap is capable of real-time data analysis update ㅇ We build issue collection module to extract issues from text data and data analysis module to link data analysis with extracted issues ❏ Issue collection module execute ‘Climate change text collection → Topic Extraction → Issue Identification → Issue Network Organization’ process ㅇ Text Collection: Reports from government sponsored research institutes/ Formal speeches from higher-ranking official/Press Release from government/Assembly meeting transcripts/Materials from Climate Change From in Assembly/DBpia academic paper abstracts/NAVER paper articles of 12 major papers from 2012 to 2019 ㅇ Topic Extraction: Apply Correlated Topic Model to extract 10 topics and correlation between topics ㅇ Issue Identification: Derive issues from key sentences extracted from TextRank algorithm ㅇ Issue Network Organization: Assign each issue to topics and organize issues according to the relationship between topics - We deduced relationship between topics combining three sources of informations - (1) Correlation coefficient from Correlated Topic Model (2) Similarity of time series frequency pattern from Dynamic Time Warping (3) Specialist Survey - We re-categorized 10 CTM topics into 5 Categories: Climate Issue cooperation/Climate Change adaptation/Greenhouse Gas Reduction /Energy and Environment/Urban Environment and Citizen ❏ Data analysis module attach data source and data analysis result to each issue in Climate Change Issue Network - We linked each data analysis to data source so that we can update data analysis in real-time Ⅵ. The Impact of Air Pollution Long-Term Exposure on the Mortality of COPD Patients ❏ We estimate the impact of 1-year and 5-year air pollution exposure on the mortality of COPD patients ㅇ We analyzed medical data of COPD patients older than 40 diagnosed from 2009 to 2018 ㅇ We used kriging to convert air pollution monitoring station data to small local district (Up. Myun.Dong) data and applied Cox Proportional hazard model to small local district data ❏ We combined NHI(National Health Insurance) individual patient data and air-pollution monitoring station data ㅇ For air pollution exposure variable, we used 1-year and 5 year average of small local district PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> pollution - For PM<sub>10</sub> and NO<sub>2</sub>, We used daily average. For O<sub>3</sub>, we used average of maximum 8 hours for each day (We converted the unit of O<sub>3</sub> and NO<sub>2</sub> from ppb to ㎍/m3) ㅇ From NHI individual medical data, we obtained gender, age, income percentile, CCI, COPD exacerbation, smoking status ㅇ For dependent variable, we used dummy variable assigning 1 for death and 0 for survival ❏ We found that COPD patients exposed higher O<sub>3</sub> 1-year or 5-year had higher risk of death ㅇ Hazard ratio of 1 year O<sub>3</sub> exposure was estimated as 1.003. Hazard ratio of 5 year O<sub>3</sub> exposure was estimated as 1.004 Ⅶ. Solar Electricity Generation Prediction ❏ We developed an LSTM algorithm predicting electricity generation of Yung -am F1 solar power plant ㅇ We predicted hourly electricity generation and 12 hour average of electricity generation. The electricity generation was non-stationary time-series ❏ For independent variables, we used electricity generation and weather data with 1 lag ㅇ For weather data, we used hourly temperature, rainfall, humidity, solar insolation, Total Cloud amount from Mokpo weather monitoring station ㅇ We used data from Jan. 01.2017 to Jun. 30. 2018 for training, and data from Jun. 30. 2018 to Jun. 30. 2019 for testing ❏ We built and RNN based LSTM algorithm and compared RMSE with ARIMA model and 3-lag moving average ❏ The RMSE of our model was 36.9% of standard deviation in 1 hour prediction and 51.1% in 12 hours average prediction ㅇ The RMSE to standard deviation of our model was 71% of the RMSE to standard deviation ratio of 3-lag moving average, and 45% of RMSE to standard deviation of ARIMA model Ⅷ. Conclusion and Suggestions ❏ Summarizing, we improved ‘Environmental Policy Monitoring System’ and added some new results ㅇ We supplemented and improved components of ‘Environmental Policy Monitoring System’ - ‘Deep Learning Based Pollution Prediction algorithm’: We improved interpretability and extended prediction lag ㆍ ‘Fine particle high concentration event prediction’: We built a Quantile regression model which can produce coefficient estimates for independent variables and is capable of prediction as accurate as machine learning algorithm ㆍ ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’: We achieved 7.64g/m<sup>3</sup> 12 hour prediction RMSE, which is equivalent to 1 hour prediction RMSE of our CNN based algorithm in 2019 - ‘Real Time Environmental Text Analysis algorithm ’: We expanded realtime sensitivity analysis and keyword network abstraction of negative sentiment for all environmental policy subfield - ‘Issue Based Database’: We improve policy monitoring scope from fine particle issue (2019) to climate change (2020) ㅇ We developed three new algorithms and one new issue based database - Fine particle high concentration event prediction quantile regression model, PM<sub>2.5</sub> pollution prediction Graph-GRU model, RNN based Solar electricity generation prediction algorithm/ climate change datamap ㅇ We expanded scope of environmental text analysis: Real-time environmental text analysis web interface ❏ For policy application, we strengthen environmental policy monitoring capability, quantify the health risk of air pollution, and provided items for the infrastructure of renewable energy ㅇ Environmental Policy monitoring: We improved policy need identification and information generation for precautionary policy intervention - Now our ‘Real Time Environmental Text Analysis algorithm’ is capable of identifying subfield of environment regarding which general public has negative sentiment. - Now our ‘Climate Change datamap’ is capable of real-time assessment of climate change issues - Now our ‘Deep Learning Based Pollution Estimation algorithm’ is capable of extending prediction lag of PM<sub>2.5</sub> and providing basic causality analysis for high concentration event of PM<sub>2.5</sub> ㆍGraph-GRU extended prediction lag. We can use this time for preventive policy intervention ㆍQuantile Regression model can be used policy evaluation tool by extending control variables and policy related variables ㅇ We provided quantified risk of air pollution on COPD patients, which can be used to quantify benefits of air-pollution reduction policy ㅇ We provided solar electricity generation prediction algorithm, which can be used for renewable energy smart-grid infrastructure

      • KCI등재

        기계학습을 활용한 대학생 학습결과 예측 연구

        김연희,임수진 한국콘텐츠학회 2020 한국콘텐츠학회논문지 Vol.20 No.6

        Recently, There has been an increasing of utilization IT, and studies have been conducted on predicting learning results. In this study, Learning activity data were collected that could affect learning outcomes by using learning analysis. The survey was conducted at a university in South Chung-Cheong Province from October to December 2018, with 1,062 students taking part in the survey. First, A Hierarchical regression analysis was conducted by organizing a model of individual, academic, and behavioral factors for learning results to ensure the validity of predictors in machine learning. The model of hierarchical regression was significant, and the explanatory power (R2) was shown to increase step by step, so the variables injected were appropriate. In addition, The linear regression analysis method of machine learning was used to determine how predictable learning outcomes are, and its error rate was collected at about 8.4%. 최근 교육분야에 IT의 활용이 증가하고 이를 통한 학습결과 예측에 대한 연구가 진행되고 있다. 본 연구에서는 학습분석을 참고하여 학습결과에 영향을 미칠 수 있는 학습활동 데이터를 수집하였다. 조사에 참여한 학생은 1062명으로, 조사는 2018년 10월부터 12월까지 충청남도 소재의 4년제 종합 사립대학인 A대학에서 진행되었다. 먼저 기계 학습의 예측 변인들의 타당성 확보를 위하여 학습결과에 대한 개인·학업·행동요인으로 모형을 구성하여 위계적 회귀 분석을 실시하였다. 위계적 회귀 분석의 모형이 유의하였고, 단계별로 설명력(R2)이 증가하는 것으로 나타나 투입된 변수들이 적절한 것으로 나타났다. 또한 기계학습의 선형 회귀분석방법을 통해 투입한 학습활동 변수가 학습 결과를 얼마나 예측할 수 있는지 확인하였으며, 오차율은 약 8.4%로 수집되었다.

      • KCI등재

        기계학습 분산 환경을 위한 부하 분산 기법

        김영관(Younggwan Kim),이주석(Jusuk Lee),김아정(Ajung Kim),홍지만(Jiman Hong) 한국스마트미디어학회 2021 스마트미디어저널 Vol.10 No.1

        기계학습이 보편화되면서 기계학습을 활용한 응용 개발 또한 활발하게 이루어지고 있다. 또한 이러한 응용 개발을 지원하기 위한 기계학습 플랫폼 연구도 활발하게 진행되고 있다. 그러나 기계학습 플랫폼 연구가 활발하게 진행되고 있음에도 불구하고 기계학습 플랫폼에 적절한 부하 분산에 관한 연구는 아직 부족하다. 따라서 본 논문에서는 기계학습 분산 환경을 위한 부하 분산 기법을 제안한다. 제안하는 기법은 분산 서버를 레벨 해시 테이블 구조로 구성하고 각 서버의 성능을 고려하여 기계학습 작업을 서버에 할당한다. 이후 분산 서버를 구현하여 실험하고 기존 해싱 기법과 성능을 비교하였다. 제안하는 기법을 기존 해싱 기법과 비교하였을 때 평균 약 26%의 속도 향상을 보였고, 서버에 할당되지 못하고 대기하는 작업의 수가 약 38% 이상 감소함을 보였다. As the machine learning becomes more common, development of application using machine learning is actively increasing. In addition, research on machine learning platform to support development of application is also increasing. However, despite the increasing of research on machine learning platform, research on suitable load balancing for machine learning platform is insufficient. Therefore, in this paper, we propose a load balancing scheme that can be applied to machine learning distributed environment. The proposed scheme composes distributed servers in a level hash table structure and assigns machine learning task to the server in consideration of the performance of each server. We implemented distributed servers and experimented, and compared the performance with the existing hashing scheme. Compared with the existing hashing scheme, the proposed scheme showed an average 26% speed improvement, and more than 38% reduced the number of waiting tasks to assign to the server.

      • KCI등재

        기계학습 기반의 클라우드를 위한 센서 데이터 수집 및 정제 시스템

        황치곤,윤창표 한국정보통신학회 2021 한국정보통신학회논문지 Vol.25 No.2

        Machine learning has recently been applied to research in most areas. This is because the results of machine learning are not determined, but the learning of input data creates the objective function, which enables the determination of new data. In addition, the increase in accumulated data affects the accuracy of machine learning results. The data collected here is an important factor in machine learning. The proposed system is a convergence system of cloud systems and local fog systems for service delivery. Thus, the cloud system provides machine learning and infrastructure for services, while the fog system is located in the middle of the cloud and the user to collect and refine data. The data for this application shall be based on the Sensitive data generated by smart devices. The machine learning technique applied to this system uses SVM algorithm for classification and RNN algorithm for status recognition. 기계학습은 최근 대부분의 분야에서 적용하여 연구를 하고 있다. 이것은 기계학습의 결과가 결정된 것이 아니라 입력데이터의 학습으로 목적함수를 생성하고, 이를 통해 통하여 새로운 데이터에 대한 판단이 가능하기 때문이다. 또한, 축적된 데이터의 증가는 기계학습 결과의 정확도에 영향을 미친다. 이에 수집된 데이터는 기계학습에 중요한 요인이다. 제안하는 본 시스템은 서비스 제공을 위한 클라우드 시스템과 지역의 포그 시스템의 융합 시스템이다. 이에 클라우드 시스템은 서비스를 위한 머신러닝과 기반 구조를 제공하고, 포그 시스템은 클라우드와 사용자의 중간에 위치하여 데이터 수집 및 정제를 수행한다. 이를 적용하기 위한 데이터는 스마트기기에서 발생하는 센세 데이터로 한다. 이에 적용된 기계학습 기법은 분류를 위한 SVM알고리즘, 상태 인지를 위한 RNN 알고리즘을 이용한다.

      • KCI등재

        기계 학습 기반 탄성파 자료 단층 해석: 연구동향 및 기술

        최우창,이강훈,조상인,최병훈,편석준 한국지구물리.물리탐사학회 2020 지구물리와 물리탐사 Vol.23 No.2

        Recently, many studies have been actively conducted on the application of machine learning in all branches of science and engineering. Studies applying machine learning are also rapidly increasing in all sectors of seismic exploration, including interpretation, processing, and acquisition. Among them, fault detection is a critical technology in seismic interpretation and also the most suitable area for applying machine learning. In this study, we introduced various machine learning techniques, described techniques suitable for fault detection, and discussed the reasons for their suitability. We collected papers published in renowned international journals and abstracts presented at international conferences, summarized the current status of the research by year and field, and intensively analyzed studies on fault detection using machine learning. Based on the type of input data and machine learning model, fault detection techniques were divided into seismic attribute-, image-, and raw data-based technologies; their pros and cons were also discussed. 최근 과학기술 및 공학 전 분야에서 기계 학습을 적용하는 연구들이 매우 활발하게 수행되고 있다. 탄성파 탐사분야 또한 해석, 처리, 취득 등 모든 영역에서 기계 학습을 적용한 연구들이 빠르게 증가하는 추세이다. 그 중 단층 해석은 탄성파 자료 해석 분야에 있어 가장 중요한 기술 중 하나이며, 기계 학습을 적용하기에 가장 적합한 분야이기도 하다. 이 논문에서는 다양한 기계 학습 기법들에 대해 소개하고 단층 해석에 적합한 기법들과 그 이유를 기술하였다. 물리탐사분야의 저명한 국제 학술지에 게재된 논문과 국제 학술대회 발표 사례들을 조사하여 연도별, 분야별 연구 현황을 정리하였으며, 그 중 기계 학습을 사용한 단층 해석 연구들을 집중적으로 분석하였다. 단층 해석 기술은 입력 자료 및 기계 학습 모델의 형태에 따라 탄성파 속성 기반 기술, 탄성파 이미지 기반 기술, 원시자료 기반 기술로 나누어 그 장단점을 기술하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼