CTGAN 기반 데이터 증강과 XGBoost 예측모델을 활용한 교통사고 예측에 관한 연구 = A Study on Traffic Accident Prediction Using CTGAN-Based Data Expansion and XGBoost Prediction Model|RISS 상세보기

국문 초록 (Abstract)

기존의 교통사고 예측 연구들은 전통적인 통계 분석 또는 회귀 모형을 활용하여 예측을 진행하였다. 이는 교통사고 발생 시 나타나는 사고의 복합적인 요인을 충분하게 반영하지 못하였으며, 특히 국내의 사고 데이 터는 중대 사고의 발생 비율이 경미 사고와 비교하였을 때 표본 수가 상 대적으로 낮기 때문에 데이터 불균형 문제를 발생하고 있으며 이러한 문 제점은 예측 모델의 성능을 저하시킬 수 있다. 따라서 본 연구에서는 대도시의 중대사고 발생을 예측하고, 중대사고 발생에 영향을 미치는 요인을 분석하는 것을 목적으로 수행되었다. 공간 적 범위로는 서울특별시 및 6대 광역시(부산, 대구, 인천, 광주, 대전, 울 산)이며, 시간적 범위는 2020년부터 2024년까지의 교통사고 데이터를 활 용하였다. 데이터 불균형 문제를 해결하기 위해 CTGAN(Conditional Tabular Generative Adversarial Network)을 사용하여 상대적으로 많은 경미 사고 데이터를 중대 사고 데이터의 수 1:1 비율로 맞춰 데이터의 균형을 확보 하였다. 이후 XGBoost(Extreme Gradient Boosting) 모델을 적용하여 중대 사고 발생 여부를 예측하였다. 또한 예측 결과를 토대로 변수별 영향력을 평가하기 위해 모델의 해석 가능성을 높이기 위해 SHAP(Shapley Additive Explanations) 분석을 수행 하였으며, 대한민국의 기후적 특성으로 인한 기상상태_맑음이라는 변수 의 편중이 예측 모델의 변수 중요도 해석에 교란효과(confounding effect)를 초래할 가능성이 있음을 고려하였다. 이에 따라 전체 SHAP 분 석과 기상상태 변수를 제거한 후에 지역별 교통 활동량의 차이를 반영하 기 위해 단순 요일 범주 대신 요일별 사고 비율(요일_비율) 변수를 새롭 게 생성하고 조건부 SHAP 분석을 병행하여 결과를 비교하였다. 분석 결과 Accuracy는 0.683~0.735로 나타났으며, ROC-AUC는 0.760~ 0.818로 전반적으로 안정적인 중대 사고 예측 결과를 나타내고 있다. 또 한 서울을 포함한 7개 지역의 SHAP 분석 결과를 종합적으로 비교한 결 과, 각 지역의 주요 변수의 상대적인 영향 차이가 있는 것을 확인할 수 있었다. 본 연구는 CTGAN을 통한 데이터 불균형 보정과 SHAP 기반의 해석 가능한 예측 모델을 결합함으로써, 대도시 교통사고의 주요 요인을 정량 적으로 평가한 점에서 의의가 있다. 향후 본 연구의 결과는 지역별 맞춤 형 교통안전정책 수립 및 고위험 구간 관리의 과학적 근거로 활용될 수 있을 것으로 기대된다.

번역하기

기존의 교통사고 예측 연구들은 전통적인 통계 분석 또는 회귀 모형을 활용하여 예측을 진행하였다. 이는 교통사고 발생 시 나타나는 사고의 복합적인 요인을 충분하게 반영하지 못하였으...

목차 (Table of Contents)