http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
다변량 데이터의 피처 조합을 활용한 ConvLSTM 기반 COVID-19 확산 예측
김예진(Yejin Kim),김석연(Seokyeon Kim),장윤(Yun Jang) 한국정보과학회 2021 정보과학회논문지 Vol.48 No.4
COVID-19는 감염자의 비말을 통해 전파된다. 비말의 전파는 시공간의 영향을 받는다. 전염병의 전파는 감염자와 비감염자의 건강 상태, 환경적 요인 등 다양한 요인의 상호작용으로 이루어진다. 하지만 예측 모델에 전염병과 관련된 정보를 모두 포함하고, 정보간의 관계를 파악하는 것은 쉽지 않다. 본 논문에서는 COVID-19의 전염 특징을 딥러닝 학습 데이터셋에 포함하고, COVID-19 확산 데이터의 조합이 딥러닝 예측 성능에 미치는 영향을 파악하는 연구 방법을 제안하였다. 예측에 앞서 COVID-19의 전염 특징을 파악하고, 데이터 전처리 시 COVID-19 확산 특징을 포함하기 위한 고려 사항을 정의하였다. 딥러닝 모델링 시에는 시공간 예측을 위해 ConvLSTM을 응용한 예측 모델을 설계하였다. 예측 모델을 테스트하는 단계에서는 확산 데이터를 여러 가지 방식으로 조합하고, 각 조합이 딥러닝 예측 성능에 미치는 영향을 분석하였다. 성능 평가를 위해 COVID-19 확진자의 정보와 확진자가 방문한 장소의 특징을 기준으로 47개의 피처를 만들고, 120개의 피처 조합을 실험하였다. 또한 모델 성능 평가 지표로 MAPE를 이용하였다. 실험 결과, COVID-19 데이터셋에서 피처 조합 모델의 MAPE 평균값으로 1.234, 피처를 조합하지 않은 모델의 MAPE 평균값으로 2.217을 얻을 수 있었다. COVID-19 is transmitted through the droplets expelled by infected people. The propagation of splash is affected by space-time. The transmission of infectious diseases depends on the interaction of various factors such as the health status of the infected and the non-infected people and different environmental factors. However, it is difficult to include all information related to the epidemic in the predictive model and understand the relationship between the information. In this research, we propose a method to include the infectious features of COVID-19 in a learning dataset of the deep learning model and understand the effect of the combination of COVID-19 spreading data on the predictive performance of deep learning. Before predicting, the infectious features of COVID-19 are identified and considerations for including the COVID-19 spreading features are defined in the data preprocessing step. In deep learning modeling, a prediction model using ConvLSTM is designed for spatiotemporal prediction. In the process of testing the model, various features related to COVID-19 spread are combined and the effect of the combination on the performance of the model is analyzed. We tested 120 feature combinations with 47 features composed of personal information of confirmed patients and spatial characteristics of the places that they had visited. We used MAPE as an indicator to evaluate performance of the models. In the case of COVID-19 dataset, the MAPE value of the model with combined features was 1.234, and that of the model with not combined features was 2.217.