RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        기계번역 활용 한국어 쓰기 수업에서 나타난 학습자 인식과 번역문의 특징

        박수진 한국교양교육학회 2023 교양교육연구 Vol.17 No.3

        This study examined how Korean learners perceive machine translation in Korean writing class, what the characteristics of machine-translated texts are, and what patterns appear depending on the level of Korean proficiency. Based on these results, this study aimed to suggest how machine translation in Korean writing class would help both of instructors and students. According to a survey of 77 Korean learners, 96% use machine translation and about 90% find it convenient. For beginners, most used machine translation when translating their native language into Korean, while intermediate and advanced learners used machine translation when translating Korean into their native language. Machine translation was mainly used for learning written language. In the second survey of same population, more than 98% of learners recognized that machine translation was convenient but inaccurate, and 97% required that there would be activities to use machine translation which could also provide feedback during class time. In sum, advanced level learners reviewed and modified machine-translated results more carefully than beginners and intermediate level learners, while beginners reviewed and modified less carefully than intermediate and advanced level learners. Thus based on this study, the teaching and learning methods for using machine translation in the writing class were presented as ‘1) finding problems and correcting one’s own language knowledge through self-correction after using machine translation, 2) discovering the differences between one’s mother tongue and Korean through back-translation activities, 3) discovering and using ways to reduce machine translation errors, where 4) the instructor should guide learners to discover cultural elements and provide explicit feedback., discovering various translations according to translation purpose and intention through cooperative activities.’ 이 연구에서는 한국어 쓰기 교양 수업에서 한국어 학습자들이 기계번역에 대해 어떻게 인식하는지, 기계번역을 활용하여 생성한 번역문의 특징은 어떠한지, 한국어 수준에 따라 어떤 양상이 나타나는지에 대해 살펴보았다. 그리고 이를 바탕으로 기계번역 활용 한국어 쓰기 수업의 교수⋅학습 방안을 제시하였다. 한국어 학습자 77명의 설문 조사 결과, 96%가 번역기를 사용하고 있고 90% 정도가 번역기 사용이편리하다고 하였다. 초급 학습자의 경우, 대다수가 모국어를 한국어로 번역할 때 기계번역을 사용하는 반면에 중급, 고급 수준의 학습자들은 한국어를 모국어로 번역할 때 기계번역을 사용하였다. 주로 문어 학습에 기계번역을 많이 사용하였다. 2차 설문 조사 결과, 98% 이상의 학습자들이 기계번역사용은 편리하나 부정확한 것으로 인식하였고 97%의 학습자들이 수업 시간에 기계번역을 사용하고 피드백하는 활동이 있기를 희망하였다. 초급 수준의 학습자보다 중급 학습자가, 그리고 중급보다 고급학습자가 기계번역 결과물을 더 세밀하게 검토하고 수정하는 것을 알 수 있었다. 초급 학습자들은 자기 수정 빈도가 가장 적게 나타났으며 기계번역 결과를 그대로 수용하는 경향이 강했으며 수정 시 문체에 집중하는 것을 알 수 있었다. 중급 학습자는 자기 수정의 성공률과 실패율이 고급 수준의 학습자와 큰 차이가 나타나지 않았으나 고급 수준의 학습자들은 기계번역 산출물의 대부분을 수정하였고 문장을 재구성하여 의미를 상세히 나타내려고 하였다. 이를 바탕으로 기계번역 활용 수업의 교수⋅학습 방안을 ‘1) 기계번역 활용 후 자기 수정을 통해 문제점을 찾고 자신의 언어지식 수정하기, 2) 역번역활동을 통해 학습자 스스로 모국어와 한국어의 차이 발견하기, 3) 기계번역 오류를 줄이는 방법을 발견하고 사용하기, 이때 4) 교수자는 특히 문화적 요소를 학습자들이 발견하도록 유도하고 명시적 피드백하기, 5) 협력 활동을 통해 번역 목적, 의도에 따른 다양한 번역문 발견하기’로 제시하였다.

      • KCI등재

        기계학습: 대용량/패널자료와 학습분석학 자료 분석으로의 활용

        유진은 ( Jin Eun Yoo ) 한국교육공학회 2019 교육공학연구 Vol.35 No.S

        컴퓨터공학을 비롯한 여러 학문에서 주목을 받고 있는 기계학습 기법은 전자상거래, 유전체학, 자연어 분석, 의료영상처리, 자율주행자동차 등의 다양한 분야에 성공적으로 응용되고 있다. 반면, 기계학습을 이용한 교육 연구는 상대적으로 많지 않으며, 기계학습 자체에 대한 교육 분야 연구자들의 이해 또한 높지 않다. 본 연구는 기계학습의 정의로부터 시작하여 주요 개념인 추론과 예측, 과적합, 편향-분산 상충 관계, 교차검증, 지도학습과 비지도학습 등을 설명하며 기계학습을 전반적으로 개관하였다. 이어서 2019년 현재 교육분야에서 기계학습 기법을 쓴 연구와 학습분석학 자료를 활용한 연구를 정리·분석함으로써, 교육 분야 연구자들의 기계학습에 대한 이해도를 높이고 교육 연구에서 기계학습의 저변을 넓히고자 하였다. 분석 결과, 기계학습 기법 중 지도학습 기법인 벌점회귀모형과 랜덤포레스트가 다양한 교육 대용량/패널 자료 분석에 활용되었으며 비지도학습의 경우 온라인 텍스트 자료 분석 위주로 실시된 것을 확인하였다. 학습분석학 자료의 경우 아직 기계학습 기법이 충분히 활용되지 못한 것으로 보인다. 마지막으로 기계학습을 활용하는 교육 연구의 향후 과제를 교육 대용량/패널자료의 특징과 연계하여 고찰하고, 학습분석학자료 분석과 관련한 기계학습 기법의 활용 방안을 논하였다. Mainly developed in computer engineering/science, machine learning not only has been gaining popularity in academics, but also has been successfully applied to various fields of life including online retail business, genomics/health care, natural language processing, and self-driving cars. Nonetheless, there have been only a handful of machine learning studies in education, and accordingly educational researchers are not well-informed about machine learning. Starting with an overview of machine learning including its definition and key concepts such as prediction and overfitting, this article reviewed machine learning studies in education, which will help improve understanding of and propagate applications of machine learning techniques in the educational research community. Specifically, penalized regression and random forests have been employed to analyze large-scale/panel data as supervised learning, and text mining with LDA (Latent Dirichlet Allocation) has been frequently used as unsupervised learning in the field of education. Applying machine learning techniques to learning analytics data appears to need much improvement. Lastly, future research topics are discussed, particularly for researchers using large-scale/ panel data and learning analytics data.

      • KCI등재

        학부 러시아어 전공 학습자의 기계번역 사용 양상과 인식

        한현희 한국노어노문학회 2023 노어노문학 Vol.35 No.1

        본 연구는 러시아어 학습자의 기계번역 사용 양상 및 인식 파악을 목표로 한다. 이를 위해 국내 대학 러시아어 전공 학부생 121명을 대상으로 설문조사를 실시하였고 분석 결과는 다음과 같다. 1) 러시아어 학습자는 기계번역에 대한 의존도가 높다. 2) 러시아어 학습자는 품질상의 이유로 구글번역을 선호하며, 주로 한국어에서 러시아어 방향을 이용한다. 3) 러시아어 학습자는 주로 어휘 및 표현 검색, 문장구조 파악, 내용 보충 순의 목적으로 기계번역을 이용한다. 4) 러시아어 학습자의 기계번역 신뢰도는 5점 기준으로 3.17, 만족도는 3.07로 나타나 평균 이상을 보인다. 5) 러시아어 학습자는 기계번역 사용이 러시아어 실력 향상에 도움이 되며, 기계번역 덕분에 러시아어가 더 쉽게 느껴진다고 여길 뿐만 아니라, 독해 및 작문에 효과적일 것이라고 판단하여 학습 도구로서 기계번역의 효용성을 높이 평가한다. 6) 러시아어 학습자는 전공 수업에서 기계번역의 사용이 필요하고 바람직할 뿐만 아니라 기계번역에 관한 교육이 필요하다고 여겨 교육 도구로서 기계번역의 효용성 또한 높이 평가한다. 7) 러시아어 학습자는 기계번역에 대한 의존성, 품질 검증 불가능, 전공자의 역할 위협 등에 대해 우려한다. 8) 러시아어 학습자는 올바른 기계번역 사용을 위해 이용 시기, 목적, 프리에디팅 및 포스트에디팅, 교정 등 교사의 가이드라인을 필요로 한다. 9) 러시아어 수준이 높을수록 기계번역 덕분에 러시아어가 더 쉽게 느껴지는 것으로 나타나, 학습 도구로서 기계번역의 긍정적 효과를 인정하고 수용하는 정도가 높은 것으로 확인된다. 10) 기계번역을 많이 활용하는 학습자일수록 기계번역에 대한 신뢰도 및 만족도가 높이 나타나며, 기계번역 덕분에 흥미, 난이도 저감, 도움 정도가 높게 나타난다. 아울러 전공 수업 시 기계번역 사용의 필요성 및 타당성에 대해서도 긍정적인 태도를 보여 학습 및 교육 도구로 인지하고 수용하는 정도가 높은 것으로 확인된다. 이상의 분석 결과를 종합해 볼 때 기계번역 기반의 러시아어 전공 수업 커리큘럼 개발이 필요하다.

      • KCI등재

        사용자 건강 상태알림 서비스의 상황인지를 위한 기계학습 모델의 학습 데이터 생성 방법

        문종혁,최종선,최재영 한국정보처리학회 2020 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.9 No.1

        In the context-aware system, rule-based AI technology has been used in the abstraction process for getting context information. However, the rules are complicated by the diversification of user requirements for the service and also data usage is increased. Therefore, there are some technical limitations to maintain rule-based models and to process unstructured data. To overcome these limitations, many studies have applied machine learning techniques to Context-aware systems. In order to utilize this machine learning-based model in the context-aware system, a management process of periodically injecting training data is required. In the previous study on the machine learning based context awareness system, a series of management processes such as the generation and provision of learning data for operating several machine learning models were considered, but the method was limited to the applied system. In this paper, we propose a training data generating method of a machine learning model to extend the machine learning based context-aware system. The proposed method define the training data generating model that can reflect the requirements of the machine learning models and generate the training data for each machine learning model. In the experiment, the training data generating model is defined based on the training data generating schema of the cardiac status analysis model for older in health status notification service, and the training data is generated by applying the model defined in the real environment of the software. In addition, it shows the process of comparing the accuracy by learning the training data generated in the machine learning model, and applied to verify the validity of the generated learning data. 다양한 분야에서 활용되는 상황인지 시스템은 상황정보를 획득하기 위한 추상화 과정에서 규칙 기반의 인공기능 기술이 기존에 사용되었다. 그러나 서비스에 대한 사용자의 요구사항이 다양해지고 사용되는 데이터의 증대로 규칙이 복잡해지면서 규칙 기반 모델의 유지보수와 비정형 데이터를 처리하는데 어려움이 있다. 이러한 한계점을 극복하기 위해 많은 연구들에서는 상황인지 시스템에 기계학습 기술을 적용하였으며, 이러한 기계학습 기반의 모델을 상황인지 시스템에 사용하기 위해서는 주기적으로 학습 데이터를 제공해야 한다. 이에 기계학습 기반 상황인지 시스템에 대한 선행연구에서는 여러 개의 기계학습 모델을 적용하기 위한 학습 데이터 생성, 제공 등의 과정을 보였으나 제한된 종류의 기계학습 모델만을 적용 가능하여 확장성이 고려되어야 한다. 본 논문은 기계학습 기반의 상황인지 시스템의 확장성을 고려한 기계학습 모델의 학습 데이터 생성 방법을 제안한다. 제안하는 방법은 시스템의 확장성을 고려하여 기계학습 모델의 요구사항을 반영할 수 있는 학습 데이터 생성 모델을 정의하고 학습 데이터 생성 모듈을 바탕으로 각각의 기계학습 모델의 학습 데이터를 생성하는 것이다. 시스템의 확장성의 검증을 위해 실험에서는 노인의 건강 상태 알림 서비스를 위한 심박상태 분석 모델을 대상으로 한 학습데이터 생성 스키마를 기반으로 학습데이터 생성 모델을 정의하고 실환경에서 정의된 모델을 S/W에 적용하여 학습데이터를 생성한다. 또한 생성된 학습데이터의 유효성을 검증하기 위해 사용되는 기계학습 모델에 생성한 학습데이터를 학습시켜 정확도를 비교하는 과정을 보인다.

      • KCI등재후보

        개인정보가 보호되는 동형암호기반 금융데이터분석

        천정희,어윤희,김재윤 한국금융정보학회 2018 금융정보연구 Vol.7 No.1

        Recently, as machine learning research has been developed, big data analysis gets the limelight. This is because of the increased network connectivity which makes it possible to collect vast amounts of high-quality data as the ingredients of machine learning. Data including sensitive privacy from multiple institutes should be merged and utilized for effective machine learning, but the process can cause a critical problem of private data leakage. This work proposes ‘Homomorphic Machine Learning’ as an information technology solution for a contradiction problem between preserving privacy and making full use of data, which performs machine learning with encrypted data without decryption. Homomorphic encryption is cutting-edge cryptographic technology which enables any operations on computers with encrypted data. It is secure against quantum computer attack. In the situation of data analysis with sensitive private data using homomorphic encryption, machine learning can be performed with no worry of privacy leakage or data loss. Specifically, this work introduces concepts of homomorphic encryption and machine learning with minimal mathematical description for understanding homomorphic machine learning. Also, based on recent works, we investigate possibility of commercialization by analyzing effectiveness of homomorphic encryption which is major obstacle for commercialization. Credit rating requires analysis of private data. As major application, this work shows process of calculating credit rating from encrypted private data without danger of private data leakage. 최근 기계학습(machine learning) 기술의 발전으로 빅데이터 분석이 각광을 받고 있다. 네트워크 연결성의증대로 방대한 양의 데이터의 수집이 가능해지면서 기계학습 기술에 기반이 되는 양질의 빅데이터 수집이용이해진 까닭이다. 기계학습이 효과적이려면 이종기관에서 수집된 데이터들을 민감한 개인정보를 포함하여병합하고 활용하여야 하는데 이 과정에서 개인정보유출의 문제가 심각하게 대두되고 있다. 본고에서는 개인정보보호와 빅데이터 활용이라는 상충된 목표를 달성할 수 있는 정보기술적 해법으로 암호화된데이터상에서 복호화 없이 기계학습을 수행하는 동형기계학습(homomorphic machine learning) 기술을 소개한다. 동형암호(homomorphic encryption)는 평문을 암호화한 상태에서도 복호화 없이 컴퓨터가 수행하는 모든계산이 가능한 암호기술로서 특히 양자컴퓨터 시대에도 안전한 최신암호기술이다. 동형암호기술을 적용하면민감한 개인정보를 포함한 데이터분석에서도 개인정보 유출이나 데이터손실 없이 기계학습을 수행할 수 있다. 구체적으로는 동형기계학습의 포괄적 이해를 위해 동형암호와 기계학습 기술을 최소한의 수학적 묘사로 개념적으로 소개하도록 한다. 또한 최근 연구결과들을 토대로 실용화에 가장 큰 걸림돌로 여겨지고 있는 동형기계학습의효율성을 분석하여 실용화 가능성을 타진해본다. 또한 민감한 개인정보를 기반으로 한 데이터분석이 필요한대표적 사례로 신용정보계산에 이를 적용하여 암호화된 개인정보를 기반으로 개인정보 유출의 위험 없이신용점수를 계산하는 과정을 제시한다.

      • KCI등재

        기계학습 기법을 활용한 플립러닝 강좌의 LMS 로그파일 분석 사례 연구

        유진은(Jin Eun Yoo) 한국열린교육학회 2020 열린교육연구 Vol.28 No.5

        COVID-19 사태로 원격 수업은 이미 전세계적인 현상이 되며 온라인 자료를 활용한 학습분석학 연구의 중요성이 한층 더 강조되고 있다. 이러한 시대에 기계학습 기법을 활용하여 LMS (learning management system) 로그파일과 같은 빅데이터를 분석함으로써 학습자의 성공을 위한 예측모형을 구축할 필요가 있다. 온라인 학습에서 특히 자기조절학습이 중시되며 총 로그인 횟수 또는 평균 접속 시간과 같은 집계 변수(aggregate variable)로 모형에 활용되어 왔는데, 실제 학습시점에서의 자기조절학습 관련 변수를 측정하고 모형화할 필요가 있다. 본 연구의 목적은 플립러닝으로 이루어진 대학원 ‘기초통계’ 수업에서 학습자의 강의동영상 시청 양상을 파악하고, 기계학습 기법을 활용하여 학업성취도를 예측하는 변수를 탐색하는 것이었다. LMS 로그파일로부터 수업 전후 동영상 시청 빈도를 추출하고 학습자 배경 변수와 병합한 후 100개 설명변수를 활용하여 학업성취도 예측모형을 구축하였다. 본 연구는 기계학습 기법 중 벌점회귀모형으로 분류되는 Enet(elastic net)을 활용함으로써 상대적으로 해석하기 쉬운 예측모형을 도출하였다. 기존 연구 방식으로는 중간고사 또는 적어도 쪽지시험과 같은 평가 후에야 학습자의 수준을 가늠할 수 있었던 반면, 본 연구는 평가 자료 없이도 빠르게는 2~3주차부터 성취도를 예측하는 변수를 파악할 수 있었다. 사전학습 과제였던 조별 질문 생성이 학습자들의 사전학습을 효과적으로 촉진하였다는 것 또한 확인할 수 있었다. 단, 학습자의 배경지식이 깊지 않고 내용 자체가 어려운 강좌의 경우 무작정 강의동영상을 많이 보라고 학습자들을 독려하는 것이 적절하지 않을 수 있다. 대학원 수준 통계와 같은 상대적으로 어려운 강좌에서 플립러닝을 효과적으로 적용할 수 있는 방안 및 다양한 배경변인 및 학습 관련 변인을 수집하고 모형에서 활용하는 방안 등을 후속 연구과제로 논하였다. The Learning Management System (LMS) provides big data for analysis with machine learning techniques to create prediction models for student success. In particular, self-regulated learning has been emphasized in online learning, and measured as login frequencies or login time. However, aggregate variables such as total login frequencies or average login time have been typically utilized, mainly due to analytical limitations of conventional techniques. More detailed indicators of self-regulated learning such as students’ watching frequencies of online lectures before and after each class need to be measured and modeled to predict students’ academic success via machine learning. This study aimed at exploring important variables for the prediction model as well as capturing students’ watching behaviors of online lectures. Students’ watching frequencies were coded using LMS log data from a graduate-level flipped classroom (FC). Combined with students’ background information, the final data for analysis consisted of 100 predictors in a course on introductory statistics. Enet (penalized regression) was employed among machine learning techniques mainly due to its interpretability. Without a quiz or an exam, the frequencies of video watching were important variables to predict students’ academic achievement as early as the first 2~3 weeks of the course. However, merely watching the instructional videos repeatedly did not contribute to students’ academic success. Further studies are warranted on designing effective FC with heavily loaded courses covering unfamiliar content as well as collecting and modeling other important study-related or background information variables relevant to students’ academic success in FC.

      • KCI등재

        한국어 학습자의 기계번역 활용 실태 연구

        공태수(Kong Tae Soo),백재파(Baek Jae Pa) 학습자중심교과교육학회 2021 학습자중심교과교육연구 Vol.21 No.5

        본 연구는 기계번역 활용 한국어 교육 방안 마련을 위하여 한국어 학습자의 기계번역 사용 실태 및 기대를 살펴보는 데 목적이 있다. 이를 위해 2020년 10월 26일 D대학 한국어 교육 과정을 이수하고 있는 초급 및 중급 학습자 216명을 대상으로 설문조사를 실시했다. 조사 결과 학습자들 대다수는 기계번역을 사용하고 있으며, 자주 사용하는 것으로 나타났다. 또한 학습자들은 기계번역을 문어 학습에 많이 활용하고 있었으며 주로 사전 용도로 사용하고 있는 것으로 나타났다. 학습자들은 정확한 결과물을 얻기 위한 노력을 많이 기울이고 있지 않았고, 결과물에 대한 만족도가 크게 높지는 않았다. 나아가 학습자들은 기계번역 활용 한국어 교육이 효과가 있을 것으로 기대하고 있었으며, 특히 쓰기 및 읽기, 어휘 및 문법 학습에 긍정적 효과가 있을 것으로 기대한다고 나타났다. 그리고 이러한 결과를 학습자 변인에 따라 분석하고 이를 바탕으로 기계번역 활용 한국어 교육에 주는 시사점을 구체적으로 논의하였다. The purpose of this study is to investigate the current status and expectations of Korean language learners regarding the use of machine translation for the establishment of methodology in Korean language education using machine translation. For this purpose, a survey was conducted on 216 learners of basic and intermediate levels taking Korean-language education courses at D University. The survey results showed that the majority of learners used machine translation, and their responses indicated that they often used machine translation in their learning. In addition, learners utilized machine translation for learning written language in many cases and mainly used it in the same way as referring to a dictionary. The learners did not put much additional effort toward obtaining accurate results from the use of machine learning, and the level of satisfaction with the output was not particularly high. Furthermore, learners expected that the use of machine translation would be effective for Korean language education, and they expect positive effects in writing and reading and in studies of vocabulary and grammar. Finally, these results were analyzed according to learner variables, and based on the analysis, the implications for the use of machine translation in Korean language education were discussed in detail.

      • 기계 학습 기법을 활용한 수해폐기물 발생량 예측 모형 개발

        박만호 ( Man Ho Park ),김재영 ( Jae Young Kim ) 한국폐기물자원순환학회(구 한국폐기물학회) 2021 한국폐기물자원순환학회 춘계학술발표논문집 Vol.2021 No.-

        수해 현장에서 다량으로 발생하는 수해폐기물은 재난 복구 작업을 지연시키며 2차 환경 오염을 유발할 수 있어 신속한 수거 및 처리가 필요하다. 지역 단위로 수해폐기물 발생량을 예측하는 것은 폐기물 수거 및 처리 업무에 필요한 자원을 배정하기 위해 중요하다. 선형 회귀 모형에 기반한 여러 수해폐기물 예측 방법론이 전통적으로 검토되어 왔으나 수해폐기물 발생이 비선형적 특성을 가질 수 있음을 고려하여 새로운 형태의 비선형 모형을 수해폐기물 예측 모형 개발에 도입할 필요가 있다. 본 연구에서는 기계 학습 기법을 이용한 수해폐기물 회귀모형 개발을 시도하였고 기계학습 모형의 예측 성능을 평가하였다. 2008년부터 2017년까지 국내 수해폐기물 발생 사례 90건 중 72건을 모형 학습용 자료로, 18건을 학습된 모형의 성능을 평가하기 위한 자료로 활용하여 수해폐기물 발생이 기계학습 기법을 통해 학습 가능한 문제인지 살피고, 학습하지 않은 사례에 대해 일반화가 가능한지를 살펴보았다. 기계학습 모형의 설계 인자인 하이퍼 파라미터는 keras tuner를 활용하여 최적화하였다. 입력 변수로는 수해 유형 및 피해 관련 데이터 8종류, 지역 특성 관련 자료 10종류, 강우 및 바람 등 기상 관련 자료 4종류로 총 22가지가 활용되었다. 학습 자료와 평가 자료를 분할할 때 여러 가지 경우의 수가 존재할 수 있어 자료 분할 및 학습을 총 20번 각각 시행하였다. 그 결과, 기계학습 모형은 수해폐기물 발생량을 학습 자료에 대해 r<sup>2</sup>= 0.58 ± 0.06 수준으로 잘 예측하였으나 평가 자료에 대해서는 r<sup>2</sup> = 0.33 ± 0.18 수준으로 예측 성능에 한계가 있는 것으로 드러났다. 이를 정리하면, 기계 학습 방법은 현 수준의 수해폐기물 발생량 자료로부터 경향성을 학습할 수는 있지만 아직 학습 자료 외의 사건까지 일반화하기에는 조금 부족함이 있어 보인다. 추가적인 자료 확보 등을 통해 학습 모형을 더욱 개선할 필요가 있다.

      • 데이터 증강을 통한 기계학습 능력 개선 방법 연구

        김태우(Tae-woo Kim),신광성(Kwang-seong Shin) 한국정보통신학회 2021 한국정보통신학회 종합학술대회 논문집 Vol.25 No.1

        기계학습을 위한 패턴인식을 위해서는 학습데이터의 양이 많을수록 그 성능이 향상된다. 하지만 일상에서 검출해내야 하는 패턴의 종류 및 정보가 항상 많은 양의 학습데이터를 확보할 수는 없다. 따라서 일반적인 기계학습을 위해 적은 데이터셋을 의미있게 부풀릴 필요가 있다. 본 연구에서는 기계학습을 수행할 수 있도록 데이터를 증강시키는 기법에 관해 연구한다. 적은 데이터셋을 이용하여 기계학습을 수행하는 대표적인 방법이 전이학습(transfer learning) 기법이다. 전이학습은 범용데이터셋으로 기본적인 학습을 수행한 후 목표데이터셋을 최종 단계에 대입함으로써 결과를 얻어내는 방법이다. 본 연구에서는 ImageNet과 같은 범용데이터셋으로 학습시킨 학습모델을 증강된 데이터를 이용하여 특징추출셋으로 사용하여 원하는 패턴에 대한 검출을 수행한다. For pattern recognition for machine learning, the larger the amount of learning data, the better its performance. However, it is not always possible to secure a large amount of learning data with the types and information of patterns that must be detected in daily life. Therefore, it is necessary to significantly inflate a small data set for general machine learning. In this study, we study techniques to augment data so that machine learning can be performed. A representative method of performing machine learning using a small data set is the transfer learning technique. Transfer learning is a method of obtaining a result by performing basic learning with a general-purpose data set and then substituting the target data set into the final stage. In this study, a learning model trained with a general-purpose data set such as ImageNet is used as a feature extraction set using augmented data to detect a desired pattern.

      • 환경 빅데이터 분석 및 서비스 개발 Ⅳ

        강성원,진대용,홍한움,고길곤,임예지,강선아,김도연 한국환경정책평가연구원 2020 사업보고서 Vol.2020 No.-

        Ⅰ. 서론: 연구의 필요성 및 목적 ❏ 정책수요 파악, 정책 시의성 평가, 정책 유효성 평가에 사용할 수 있는 ‘환경정책 모니터링 시스템(가칭)’ 구축 ㅇ 환경정책 모니터링 시스템: 기계학습의 장점인 예측의 정교함 및 실시간 데이터 수집-분석-결과 갱신 가능성을 환경정책 연구에 접목 ㅇ 환경오염 통합예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터베이스 3개 분석도구로 구성 - 환경오염 통합예측: 다양한 환경오염물질 오염도 예측 주기적 반복 - 실시간 환경 텍스트 분석: 환경 텍스트 정보추출 및 감성분석 주기적 반복 - 질문중심 데이터베이스: 주요 환경이슈 목록 - 이슈 관련 데이터 분석을 연계하여 주기적으로 결과 실시간 업데이트 ㅇ 정책수요 파악: 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악 ㅇ 정책 시의성 평가: 민간 텍스트 분석 결과와 환경정책 생산자 텍스트 분석 결과를 비교하여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부를 진단 ㅇ 정책 유효성 평가: 환경오염 예측 알고리즘의 정책 시행 전 예측치와 시행 후 실측치, 정책시행 전후 질문중심 데이터맵 분석 결과, 정책시행 전후 민간 텍스트 감성분류 결과 비교 ❏ 2020년 연구목표: ‘환경정책 모니터링 시스템’ 의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구내용을 확장 ㅇ 1기 (2017~2019년) 연구의 성과를 계승하면서 기계학습 방법론의 약점인 모형의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구 확장 - 1기 ‘기계학습 방법론’ 적용 연구 → 2기 ‘대용량 데이터’를 이용한 환경정책 연구 - 방법론: 1기 ‘기계학습’ → 2기 기계학습 + 전통적 통계학 기법(Frequentist/Bayesian) ㆍ모형의 단순화: 개별 변인이 분석 결과에 미치는 영향력 분석 기능 강화 ㆍ중장기 예측이 가능한 연구, 인과분석이 가능한 연구 추구 ❏ 연구내용: 환경정책 모니터링 시스템 구성요소 연구 4건, 개별연구 2건 수행 ㅇ 환경정책 모니터링 구성요소: 기존 구성요소의 방법론 및 분석 대상 확대 - 환경오염 예측 (2건): ‘미세먼지 고농도 현상 발생확률 추정’/‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’ - 환경 텍스트 분석: ‘환경 텍스트 감성 분석기 구축 및 활용’ - 질문 중심 데이터베이스: ‘기후변화 이슈 분석 및 질문중심의 데이터맵 도출’ ㅇ 개별연구: 수용체 연구 1건, 신재생에너지 연구 1건 추진 - 수용체 연구: ‘대기오염이 COPD 환자 사망에 미치는 영향’ - 신재생 에너지 연구: ‘태양광 발전 발전량 예측 알고리즘 구축’ Ⅱ. 미세먼지 고농도 현상 발생확률 추정 ❏ 서울지역 25개 측정소 초미세먼지 오염도가 ‘매우 나쁨’(76 이상)이 될 경우를 예측하는 Qunatile Regression 기반 통계모형 개발 ㅇ Qunatile Regression 모형을 Extreme value가 많은 자료에 적합하게 조정 - Extreme Conditional Qunatile Regression Model + Variable Selection (LASSO) ❏ 서울시 대기질 및 기상 정보를 이용하여 2015~2020년 봄 4시간 평균(1일 6개 시간대) PM<sub>2.5</sub> 오염도 예측 ㅇ 설명변수: 동시간대 및 1시간 이전 CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> 오염도, 강수량, 온도, 습도, 풍향, 풍속/1시간 이전 PM<sub>2.5</sub> 오염도 ㅇ 2015/01/01~2018/03/04 자료로 추정한 모형으로 2018/03/04~2020/05/29 예측 ❏ 측정소에 따라 Sensitivity 88.9%~100.0%을 달성하면서 False Positive는 6.0% ~17.1%로 억제 ㅇ Sensitivity = 매우 나쁨 예측/실제 매우 나쁨, False Positive = 매우 나쁨 예측/실제 나쁨 이하 측정 ㅇ 강동구(88.9%)를 제외한 24개 측정소에서 Sensitivity 90% 이상 ❏ RandomForest, Supporting Vector Machine, GRU 대비 11.3%p Sensitivity 향상 ㅇ 강서구 예측의 Sensitivity RandomForest(65%) < SVM(73.3%) < GRU(81.0%) < 본 연구 구축 모형(92.3%) ❏ 동시간대 CO 오염도, O<sub>3</sub> 오염도, PM<sub>10</sub> 오염도, 풍향, 1기 전 초미세먼지 오염도가 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 증가하는 경향 발견 ❏ 동시간대 강우량 및 풍속, 1기 전 강수량 및 풍속이 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 하락하는 경향 발견 Ⅲ. Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측 ❏ PM2.5 농도에 영향을 미치는 기상 및 공간정보 데이터를 반영하는 Graph-GRU 알고리즘 개발 ㅇ 과거 정보(temporal data)와 공간정보(spatial data)를 함께 활용할 수 있는 3차원 학습데이터세트 구축 - 예측대상: 남한지역 측정소 포함 0.125° × 0.125° Grid (12.5km × 12.5km)의 3-Hour PM<sub>2.5</sub> 오염도 평균값 - 입력자료: 대기오염 오염도, 기상, 고도 ㆍtraining set: 2015/01/01~2015/12/31 ㆍvalidation set: 2016/01/01~2016/12/31 ㆍtest set: 2017/01/01~2017/12/31 ㅇ 알고리즘: Graph - GRU 알고리즘 활용 - Node attribute: 기상 및 지리정보, 대기오염 - Edge attribute: 측정소 간 미세먼지 오염물질 배출량의 영향 ㆍ거리, 풍속, 풍향을 반영한 ‘영향’ 평가 함수 적용 - Adjacency Matrix: 거리: 300km, 고도: 1200m 미만 threshold 값 설정 ❏ 3시간~72시간 이후 표준제곱근오차 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup>로 억제 ㅇ 과거 정보 표준제곱근오차 축소 효과는 0.12μg/m<sup>3</sup>, 공간정보 표준제곱근오차 축소 효과는 0.16μg/m<sup>3</sup> Ⅳ. 환경 텍스트 감성분류기 구축 및 활용 ❏ 환경 SNS 데이터 수집 - 감성분석 - 결과 발신을 주기적으로 반복하는 ‘환경 텍스트 감성분류기’ 구축 ㅇ 2018~2019년 개발 기후변화 감성분류기를 환경 전 분야로 확장-준지도 학습을 이용하여 수집한 학습 데이터 14만 건을 추가하여 감성분류 정확도 제고 ㅇ 감성분류 결과의 추이를 시각화 하여 확인할 수 있는 web 기반 user interface 제공 ❏ 준지도 학습을 이용하여 학습 데이터를 기존 5만 건에서 18만 건으로 확대하여 감성 분류 정확도 제고 ㅇ 학습데이터 추가: 환경 SNS 텍스트 650만 건을 수집하고 기존 기후변화 감성분류기에 적용하여 긍정/부정 확률이 매우 높은 자료 14만 건을 추출 ㅇ 성능 향상: 기존 data 분류 정확도 1%p(78.7% → 79.7%) 향상 ❏ 환경정책 분야별 감성분류 Precision 66%~92%, Recall 73%~81% 달성 ㅇ Precision = 실제 부정/부정 판정, Recall(Sensitivity) = 부정 판정/실제 부정 ㅇ 폐기물 분야는 Precision, Recall이 모두 낮아서 지도학습을 통한 정확도 제고 필요 ❏ 기간, 검색어를 특정하여 구분한 SNS 데이터의 감성분류 결과를 실시간으로 확인할 수 있는 web 기반 user interface를 구축 ㅇ ‘부정’ 감성의 SNS 데이터로부터 키워드 빈도 및 네트워크를 추출하여 ‘부정’ 감정의 원인을 파악할 수 있는 기능을 부여 Ⅴ. 기후변화 이슈 분석 및 질문중심의 데이터맵 도출 ❏ 위계별로 정리한 기후변화 이슈와 각 이슈 관련 데이터 분석을 연계하고 데이터 분석 결과를 실시간으로 업데이트 하는 데이터맵 구축 ㅇ 텍스트 분석에서 이슈를 도출하는 이슈 선정 모듈과 데이터를 연계하는 데이터 분석 모듈을 구축 ❏ 이슈 선정 모듈: 기후변화 관련 텍스트 수집 → 주제 추출 → 질문 식별 → 질문 구조화 수행 ㅇ 텍스트: 2012~2019년 연구보고서/고위공직자 연설문/보도자료/국회회의록 /국회기후변화포럼/Dbpia논문 국문 초록/네이버 신문(12개 일간지) ㅇ 주제추출: 상관토픽모형(CTM)을 사용한 10개 주제식별 및 주제 간 관계 도출 ㅇ 질문식별: 텍스트 랭크(TextRank)로 추출한 중요 문장을 정제하여 개별 질문 도출 ㅇ 질문 구조화: 개별 질문을 주제에 할당하고 주제 간 관계를 반영하여 질문을 구조화 - 주제 간 관계: 상관토픽 모델링 상관계수, 동적 시간 와핑(dynamic time warping) 시계열 패턴 유사도, 전문가 설문조사 반영 - 5개 범주로 재분류: 기후변화 공동대응/기후변화 적응/온실가스 감축/에너지와 환경/도시환경과 시민 ❏ 데이터 분석 모듈: 명제화 된 이슈에 대한 정보를 제공할 수 있는 data source와 분석모형 연계 ㅇ 관련 자료의 실시간 update가 가능하도록 자료 원천과 직접 연계하는 방식을 사용 ㅇ 시계열 자료의 절대 추세 및 계절변동 조절 추세 분석 Ⅵ. 대기오염이 COPD 환자 사망에 미치는 영향 ❏ 사망 전 1년, 5년 간 대기오염 노출이 COPD 환자 사망위험에 미치는 영향 분석 ㅇ 분석대상: 2009~2018년 전국 40세 이상 COPD 환자 ㅇ 분석기법: Kriging과 Cox Proportional Hazard model - Kriging을 사용하여 측정소 오염도 자료로부터 읍면동 오염도 추정 ❏ 국민건강보험공단 맞춤형 DB와 대기오염 측정 데이터를 결합하여 데이터 생성 ㅇ 환경오염 관련 독립변수: event 발생/종료 1년 전, 5년 전 거주지 평균 PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> 오염도 - PM<sub>10</sub>: 일평균, O3: 일별 최고 8시간 평균, NO<sub>2</sub>: 일평균 (O<sub>3</sub>, NO<sub>2</sub>의 경우 ppb를 ㎍/m3으로 변환) ㅇ 개인 특성 관련 독립변수: 성별, 연령, 소득, 동반질환지수, COPD 외래중증악화, BMI, 흡연 ㅇ 종속변수: 사망을 1, 생존을 0으로 표기한 사망 여부 ❏ 사망 전 1년, 5년 간 O<sub>3</sub> 오염도가 높은 지역에서 산 COPD 환자는 사망위험이 소폭 증가하였음을 확인 ㅇ Hazard Ratio of O<sub>3</sub>: 1.003(1년), 1.004(5년) Ⅶ. 딥러닝 기반 태양광발전량 예측 ❏ 기상정보를 활용하여 영암 F1 발전소 태양광발전량 예측 LSTM 알고리즘 개발 ㅇ 1시간, 12시간 평균 낮 시간대 발전량을 예측: 주기성이 심한 비정상(non-stationary) 시계열 ❏ 1시점 이전 태양광발전량 및 기상정보를 입력자료로 사용 ㅇ 기상정보: 목포 기상관측소 시간별 기온, 강수량, 습도, 일사량, 전운량 ㅇ 2017.1.1~2019.6.30 자료 중 2017.1.1~2018.6.30 자료를 학습자료로 사용하여 모형을 추정하고 2018.7.1~2019.6.30 자료를 예측 ❏ RNN 기반 LSTM 알고리즘을 사용하여 모형을 구축하고 직전 3시점 이동평균(Moving Average) 및 ARIMA 모형과 예측력 비교 ❏ 1시간 예측 평균제곱근오차를 표준편차의 36.9%, 12시간 평균 예측 평균제곱근오차는 표준편차의 51.1%로 억제 ㅇ 직전 3시점 이동평균 예측오차/표준편차의 71%, ARIMAX 예측오차/표준편차의 45% 수준으로 예측오차/표준편차를 억제 Ⅷ. 연구성과 및 정책적 시사점 ❏ 연구성과: 환경정책 모니터링 시스템 구성요소 구축 및 신규 성과 축적 ㅇ 환경오염 종합예측 시스템 구성요소 확대 및 심화 - 환경오염 종합예측 알고리즘: 설명 가능성을 보완하고 예측 시차를 연장하여 활용 가능성을 제고 ㆍ‘미세먼지 고농도 발생확률 추정’: coefficient estimation이 가능하면서 예측성과가 Deep Learning 모형과 경쟁력 있는 Quantile Regression 모형을 개발 ㆍ‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’: 12시간 예측오차를 2019년 개발 CNN 기반 모형의 1시간 예측오차와 유사한 7.64g/m<sup>3</sup>로 유지 - 실시간 환경 텍스트 분석 알고리즘: 환경 전 분야 실시간 SNS 감성 분석 및 부정 감성 원인 분석 가능 - 질문중심 데이터맵: 미세먼지에 이어 기후변화로 적용 범위를 확대 - 정책 현황 파악 상황판 기능 ㅇ 3개 알고리즘, 1개 질문중심 데이터맵 신규 구축 - 초미세먼지 고농도 현상 예측 Quantile Regression 모형, 초미세먼지 오염도 예측 Graph-GRU 모형, 태양광발전량 예측 RNN 모형/기후변화 Data Map ㅇ 텍스트 분석 인프라 확장: 실시간 환경 텍스트 분석 Web Interface 개발 ❏ 정책적 시사점: 환경정책 모니터링 기능을 강화하였고 대기오염 건강위험을 정량화하였으며 신재생에너지 발전 인프라의 기초를 제공 ㅇ 환경정책 모니터링 기능 강화: 정책 현황 파악 및 선제적 정책개입 관련 정보 제공 기능 강화 - 실시간 환경 텍스트 분석: 국민 감성이 부정적인 환경정책 분야를 실시간으로 파악 가능 - 기후변화 질문중심 데이터맵: 기후변화 현황 실시간 파악 기능 제공 - ‘기후변화 상황판’ 기능 - 초미세먼지 오염도 예측의 시차를 연장하고 기초적 인과분석 기능 확보 ㆍGraph-GRU 모형: 예측 시차를 연장하여 선제적 정책 개입이 가능한 시차를 확보 ㆍQuantile Regression 모형: 향후 오염원 및 정책 관련 Data를 추가하면 정책영향 분석 도구로 활용 가능 ㅇ 대기오염 장기노출의 건강위험을 정량화 하여 대기오염 억제정책의 정량적 편익 도출 근거 마련 ㅇ 태양광발전량 예측 기능을 강화하여 신재생에너지 발전에 필요한 스마트 그리드 구축 인프라 제공 Ⅰ. Background and Aims of Research ❏ We continue to build up ‘Environmental Policy monitoring System’ dedicated to periodically identify environmental policy needs and assess timeliness and effectiveness of environmental policy as we did last year ㅇ Environmental Policy monitoring System apply prediction accuracy and real-time data collection-analysis-diffusion capability of Machine learning to environmental policy research ㅇ Our ‘Environmental Policy monitoring System’ consists of three components: ‘Deep Learning Based Pollution Prediction algorithm’, ‘Real Time Environmental Text Analysis algorithm’, ‘Issue Based Database’ - Deep Learning Based Pollution algorithm: Periodically update various pollution prediction - Real Time Environmental Text Analysis algorithm: Periodically summarise environment related text data and sentiment analysis ㆍText summary: abstract keywords and keyword network from texts produced by environmental policy provider and environmental policy consumers ㆍSentiment analysis: Real-time collection and sentiment analysis of SNS related to all subfield of environment - Issue Based Database: Key environmental issue network connected with data analysis for each issue updating real-time ㅇ Policy need Identification: Detect environment policy areas and regions in need of intervention from the predictions of ‘Deep Learning Based Pollution Prediction algorithm’, the text analysis results of ‘Real Time Environmental Text Analysis algorithm’, and the data analysis results of ‘Issue Based Database’ ㅇ Timeliness assessment: check if the temporal pattern of keywords analysis result on policy provider text and the temporal pattern of keywords analysis results on policy consumer are consistent ㅇ Effectiveness assessment: Check Pollution improvement, SNS Sentiment improvement, and Environmental Issue improvement after policy execution ❏ In 2020, we tried to improve interpretability of ‘Environmental Policy monitoring System’ ㅇ While utilizing the advantage of deep learning we found in period 1(2017~2019), we tried to reduce complexity and strengthen interpretability ㅇ In period 1, we focused on ‘apply everything related to big data analysis to Environment policy research’ From 2020, we are going to focus on ‘Environmental Policy Research using large scale data’ ㅇ Regrading methodology, we stick to machine learning in period 1. From 2020, we are going to be more flexible and try to include traditional frequentist and Bayesian statistical methods ㆍWe are going to use simpler models to improve our understanding on feature importance ㆍWe are going to build models capable of longer -term prediction and models with more interpretability ❏ In 2020, we build four algorithms for ‘Environment Policy Monitoring System’ and perform two independent researches ㅇ For ‘Environment Policy Monitoring System’, we expand the methodology and scope of previous components - We added two fine particle estimation algorithms in `Fine particle high concentration event prediction’ and ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’ - In ‘Environmental text sentiment analysis algorithm’, we expanded sentiment analysis of environment related SNS to all subfield of environment - In ‘Climate change issue based database’, we constructed new issue based database on climate change ㅇ On two important issues that cannot be integrated to ‘Environment Policy Monitoring System’, we did independent research - In ‘The impact of air pollution long-term exposure to mortality of COPD patients’,we estimated the effect of long-term exposure of air pollution on the death risk of COPD patients using NHI (National Health Insurance) Data - In ‘Solar electricity generation prediction’, we constructed an RNN based algorithm predicting solar electricity generation of F1 power plant Ⅱ. Fine Particle High Concentration Event Prediction ❏ We built a quantile regression based prediction algorithm to predict ‘extremely bad(76+)’ event of PM<sub>2.5</sub> in 25 air pollution monitoring station in Seoul ㅇ We adjusted quantile regression model to analyze data with extreme values - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution decreases when contemporary and 1 time ahead rainfall, windspeed increases Ⅲ. PM<sub>2.5</sub> Estimation and Prediction Using Graph-GRU Algorithm ❏ We built Graph-GRU albright utilizing weather and geography information to prediction PM<sub>2.5</sub> pollution ㅇ We construct a 3 dimension dataset consists of temporal and spatial data - Our dependent variable is 3 hour average PM2.5 concentration of 0.125° × 0.125° Grid (12.5km x 12.5km) containing air-pollution monitoring stations in South Korea - Our independent variables are weather data, air pollution data and height data ㆍWe trained our model with data from Jan. 1st. 2015 to Dec. 31th. 2015, validated with data from Jan. 1st. 2016 to Dec. 21th. 2016, and tested with data from Jan. 1st. 2017 to Dec. 21th. 2017, ㅇ We used Graph-GRU algorithm - For node attributes, we used weather data, spacial data, and air pollution data - To measure edge attributes, we constructed a function evaluating impact of air pollutant emission between air pollution monitoring stations ㆍThis function evaluates impact of air pollutant emission between air pollution monitoring stations using distance, wind speed, and wind direction - For adjacency Matrix, we used threshold of distance of 300km or height of 1,200m ❏ RMSE of our model in 3 hour~72 hour prediction was 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup> ㅇ Temporal information reduced RMSE by 0.12μg/m<sup>3</sup>, and spacial information reduced RMSE by 0.16μg/m<sup>3</sup> Ⅳ. Environmental Text Sentiment Analysis Algorithm ❏ ‘Environmental text sentiment analysis algorithm’ periodically performs collection-analysis-result distribution on SNS text regarding environment ㅇ We expanded climate change sentiment analysis algorithm we build in 2018~2019 to all subfield of environments, and trained with new 140 thousands SNS text training data labeled by semi-supervised learning to improve accuracy ㅇ We constructed web based user interface to visualize sentiment analysis results over time ❏ To improve accuracy, we increase the size of our training data from 50 thousand to 180 thousand using semi-supervised learning ㅇ We collected 6.5 million SNS text, and applied 2018~2019 version climate change sentiment analysis algorithm. We collected 140 thousands cases with high positive/negative sentiment score, which we added to training data. We kept 10 thousand cases for testing ㅇ With this new training data, the accuracy of sentiment analysis improved by 1%p: From 78.7% to 79.7% ❏ Sensitivity of our newly trained model was 66~92%, and Recall of our newly trained model was 73%~81%, according to subfield ㅇ ‘Waste’ field had the lowest Sensitivity and Recall. This field needs supervised learning approach to improve overall accuracy ❏ We built web based user interface to visualize sentiment analysis results with user option of keyword search and period choice ㅇ Our user interface also abstract keyword network of SNS of negative sentiment, which should give insights on the cause of negative sentiment Ⅴ. Climate Change Issue Based Database ❏ We built a datamap on Climate change consists of hierarchically organized climate change issue network and data analysis linked to each issue in the network. This datamap is capable of real-time data analysis update ㅇ We build issue collection module to extract issues from text data and data analysis module to link data analysis with extracted issues ❏ Issue collection module execute ‘Climate change text collection → Topic Extraction → Issue Identification → Issue Network Organization’ process ㅇ Text Collection: Reports from government sponsored research institutes/ Formal speeches from higher-ranking official/Press Release from government/Assembly meeting transcripts/Materials from Climate Change From in Assembly/DBpia academic paper abstracts/NAVER paper articles of 12 major papers from 2012 to 2019 ㅇ Topic Extraction: Apply Correlated Topic Model to extract 10 topics and correlation between topics ㅇ Issue Identification: Derive issues from key sentences extracted from TextRank algorithm ㅇ Issue Network Organization: Assign each issue to topics and organize issues according to the relationship between topics - We deduced relationship between topics combining three sources of informations - (1) Correlation coefficient from Correlated Topic Model (2) Similarity of time series frequency pattern from Dynamic Time Warping (3) Specialist Survey - We re-categorized 10 CTM topics into 5 Categories: Climate Issue cooperation/Climate Change adaptation/Greenhouse Gas Reduction /Energy and Environment/Urban Environment and Citizen ❏ Data analysis module attach data source and data analysis result to each issue in Climate Change Issue Network - We linked each data analysis to data source so that we can update data analysis in real-time Ⅵ. The Impact of Air Pollution Long-Term Exposure on the Mortality of COPD Patients ❏ We estimate the impact of 1-year and 5-year air pollution exposure on the mortality of COPD patients ㅇ We analyzed medical data of COPD patients older than 40 diagnosed from 2009 to 2018 ㅇ We used kriging to convert air pollution monitoring station data to small local district (Up. Myun.Dong) data and applied Cox Proportional hazard model to small local district data ❏ We combined NHI(National Health Insurance) individual patient data and air-pollution monitoring station data ㅇ For air pollution exposure variable, we used 1-year and 5 year average of small local district PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> pollution - For PM<sub>10</sub> and NO<sub>2</sub>, We used daily average. For O<sub>3</sub>, we used average of maximum 8 hours for each day (We converted the unit of O<sub>3</sub> and NO<sub>2</sub> from ppb to ㎍/m3) ㅇ From NHI individual medical data, we obtained gender, age, income percentile, CCI, COPD exacerbation, smoking status ㅇ For dependent variable, we used dummy variable assigning 1 for death and 0 for survival ❏ We found that COPD patients exposed higher O<sub>3</sub> 1-year or 5-year had higher risk of death ㅇ Hazard ratio of 1 year O<sub>3</sub> exposure was estimated as 1.003. Hazard ratio of 5 year O<sub>3</sub> exposure was estimated as 1.004 Ⅶ. Solar Electricity Generation Prediction ❏ We developed an LSTM algorithm predicting electricity generation of Yung -am F1 solar power plant ㅇ We predicted hourly electricity generation and 12 hour average of electricity generation. The electricity generation was non-stationary time-series ❏ For independent variables, we used electricity generation and weather data with 1 lag ㅇ For weather data, we used hourly temperature, rainfall, humidity, solar insolation, Total Cloud amount from Mokpo weather monitoring station ㅇ We used data from Jan. 01.2017 to Jun. 30. 2018 for training, and data from Jun. 30. 2018 to Jun. 30. 2019 for testing ❏ We built and RNN based LSTM algorithm and compared RMSE with ARIMA model and 3-lag moving average ❏ The RMSE of our model was 36.9% of standard deviation in 1 hour prediction and 51.1% in 12 hours average prediction ㅇ The RMSE to standard deviation of our model was 71% of the RMSE to standard deviation ratio of 3-lag moving average, and 45% of RMSE to standard deviation of ARIMA model Ⅷ. Conclusion and Suggestions ❏ Summarizing, we improved ‘Environmental Policy Monitoring System’ and added some new results ㅇ We supplemented and improved components of ‘Environmental Policy Monitoring System’ - ‘Deep Learning Based Pollution Prediction algorithm’: We improved interpretability and extended prediction lag ㆍ ‘Fine particle high concentration event prediction’: We built a Quantile regression model which can produce coefficient estimates for independent variables and is capable of prediction as accurate as machine learning algorithm ㆍ ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’: We achieved 7.64g/m<sup>3</sup> 12 hour prediction RMSE, which is equivalent to 1 hour prediction RMSE of our CNN based algorithm in 2019 - ‘Real Time Environmental Text Analysis algorithm ’: We expanded realtime sensitivity analysis and keyword network abstraction of negative sentiment for all environmental policy subfield - ‘Issue Based Database’: We improve policy monitoring scope from fine particle issue (2019) to climate change (2020) ㅇ We developed three new algorithms and one new issue based database - Fine particle high concentration event prediction quantile regression model, PM<sub>2.5</sub> pollution prediction Graph-GRU model, RNN based Solar electricity generation prediction algorithm/ climate change datamap ㅇ We expanded scope of environmental text analysis: Real-time environmental text analysis web interface ❏ For policy application, we strengthen environmental policy monitoring capability, quantify the health risk of air pollution, and provided items for the infrastructure of renewable energy ㅇ Environmental Policy monitoring: We improved policy need identification and information generation for precautionary policy intervention - Now our ‘Real Time Environmental Text Analysis algorithm’ is capable of identifying subfield of environment regarding which general public has negative sentiment. - Now our ‘Climate Change datamap’ is capable of real-time assessment of climate change issues - Now our ‘Deep Learning Based Pollution Estimation algorithm’ is capable of extending prediction lag of PM<sub>2.5</sub> and providing basic causality analysis for high concentration event of PM<sub>2.5</sub> ㆍGraph-GRU extended prediction lag. We can use this time for preventive policy intervention ㆍQuantile Regression model can be used policy evaluation tool by extending control variables and policy related variables ㅇ We provided quantified risk of air pollution on COPD patients, which can be used to quantify benefits of air-pollution reduction policy ㅇ We provided solar electricity generation prediction algorithm, which can be used for renewable energy smart-grid infrastructure

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼