RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      CTGAN 기반 데이터 증강과 XGBoost 예측모델을 활용한 교통사고 예측에 관한 연구 = A Study on Traffic Accident Prediction Using CTGAN-Based Data Expansion and XGBoost Prediction Model

      한글로보기

      https://www.riss.kr/link?id=T17371043

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      기존의 교통사고 예측 연구들은 전통적인 통계 분석 또는 회귀 모형을 활용하여 예측을 진행하였다. 이는 교통사고 발생 시 나타나는 사고의 복합적인 요인을 충분하게 반영하지 못하였으며, 특히 국내의 사고 데이 터는 중대 사고의 발생 비율이 경미 사고와 비교하였을 때 표본 수가 상 대적으로 낮기 때문에 데이터 불균형 문제를 발생하고 있으며 이러한 문 제점은 예측 모델의 성능을 저하시킬 수 있다. 따라서 본 연구에서는 대도시의 중대사고 발생을 예측하고, 중대사고 발생에 영향을 미치는 요인을 분석하는 것을 목적으로 수행되었다. 공간 적 범위로는 서울특별시 및 6대 광역시(부산, 대구, 인천, 광주, 대전, 울 산)이며, 시간적 범위는 2020년부터 2024년까지의 교통사고 데이터를 활 용하였다. 데이터 불균형 문제를 해결하기 위해 CTGAN(Conditional Tabular Generative Adversarial Network)을 사용하여 상대적으로 많은 경미 사고 데이터를 중대 사고 데이터의 수 1:1 비율로 맞춰 데이터의 균형을 확보 하였다. 이후 XGBoost(Extreme Gradient Boosting) 모델을 적용하여 중대 사고 발생 여부를 예측하였다. 또한 예측 결과를 토대로 변수별 영향력을 평가하기 위해 모델의 해석 가능성을 높이기 위해 SHAP(Shapley Additive Explanations) 분석을 수행 하였으며, 대한민국의 기후적 특성으로 인한 기상상태_맑음이라는 변수 의 편중이 예측 모델의 변수 중요도 해석에 교란효과(confounding effect)를 초래할 가능성이 있음을 고려하였다. 이에 따라 전체 SHAP 분 석과 기상상태 변수를 제거한 후에 지역별 교통 활동량의 차이를 반영하 기 위해 단순 요일 범주 대신 요일별 사고 비율(요일_비율) 변수를 새롭 게 생성하고 조건부 SHAP 분석을 병행하여 결과를 비교하였다. 분석 결과 Accuracy는 0.683~0.735로 나타났으며, ROC-AUC는 0.760~ 0.818로 전반적으로 안정적인 중대 사고 예측 결과를 나타내고 있다. 또 한 서울을 포함한 7개 지역의 SHAP 분석 결과를 종합적으로 비교한 결 과, 각 지역의 주요 변수의 상대적인 영향 차이가 있는 것을 확인할 수 있었다. 본 연구는 CTGAN을 통한 데이터 불균형 보정과 SHAP 기반의 해석 가능한 예측 모델을 결합함으로써, 대도시 교통사고의 주요 요인을 정량 적으로 평가한 점에서 의의가 있다. 향후 본 연구의 결과는 지역별 맞춤 형 교통안전정책 수립 및 고위험 구간 관리의 과학적 근거로 활용될 수 있을 것으로 기대된다.
      번역하기

      기존의 교통사고 예측 연구들은 전통적인 통계 분석 또는 회귀 모형을 활용하여 예측을 진행하였다. 이는 교통사고 발생 시 나타나는 사고의 복합적인 요인을 충분하게 반영하지 못하였으...

      기존의 교통사고 예측 연구들은 전통적인 통계 분석 또는 회귀 모형을 활용하여 예측을 진행하였다. 이는 교통사고 발생 시 나타나는 사고의 복합적인 요인을 충분하게 반영하지 못하였으며, 특히 국내의 사고 데이 터는 중대 사고의 발생 비율이 경미 사고와 비교하였을 때 표본 수가 상 대적으로 낮기 때문에 데이터 불균형 문제를 발생하고 있으며 이러한 문 제점은 예측 모델의 성능을 저하시킬 수 있다. 따라서 본 연구에서는 대도시의 중대사고 발생을 예측하고, 중대사고 발생에 영향을 미치는 요인을 분석하는 것을 목적으로 수행되었다. 공간 적 범위로는 서울특별시 및 6대 광역시(부산, 대구, 인천, 광주, 대전, 울 산)이며, 시간적 범위는 2020년부터 2024년까지의 교통사고 데이터를 활 용하였다. 데이터 불균형 문제를 해결하기 위해 CTGAN(Conditional Tabular Generative Adversarial Network)을 사용하여 상대적으로 많은 경미 사고 데이터를 중대 사고 데이터의 수 1:1 비율로 맞춰 데이터의 균형을 확보 하였다. 이후 XGBoost(Extreme Gradient Boosting) 모델을 적용하여 중대 사고 발생 여부를 예측하였다. 또한 예측 결과를 토대로 변수별 영향력을 평가하기 위해 모델의 해석 가능성을 높이기 위해 SHAP(Shapley Additive Explanations) 분석을 수행 하였으며, 대한민국의 기후적 특성으로 인한 기상상태_맑음이라는 변수 의 편중이 예측 모델의 변수 중요도 해석에 교란효과(confounding effect)를 초래할 가능성이 있음을 고려하였다. 이에 따라 전체 SHAP 분 석과 기상상태 변수를 제거한 후에 지역별 교통 활동량의 차이를 반영하 기 위해 단순 요일 범주 대신 요일별 사고 비율(요일_비율) 변수를 새롭 게 생성하고 조건부 SHAP 분석을 병행하여 결과를 비교하였다. 분석 결과 Accuracy는 0.683~0.735로 나타났으며, ROC-AUC는 0.760~ 0.818로 전반적으로 안정적인 중대 사고 예측 결과를 나타내고 있다. 또 한 서울을 포함한 7개 지역의 SHAP 분석 결과를 종합적으로 비교한 결 과, 각 지역의 주요 변수의 상대적인 영향 차이가 있는 것을 확인할 수 있었다. 본 연구는 CTGAN을 통한 데이터 불균형 보정과 SHAP 기반의 해석 가능한 예측 모델을 결합함으로써, 대도시 교통사고의 주요 요인을 정량 적으로 평가한 점에서 의의가 있다. 향후 본 연구의 결과는 지역별 맞춤 형 교통안전정책 수립 및 고위험 구간 관리의 과학적 근거로 활용될 수 있을 것으로 기대된다.

      더보기

      목차 (Table of Contents)

      • 국문초록· i
      • 목 차· ii
      • 표 목 차· v
      • 그림목차· vii
      • 제 1 장 서론 1
      • 국문초록· i
      • 목 차· ii
      • 표 목 차· v
      • 그림목차· vii
      • 제 1 장 서론 1
      • 1.1 연구의 배경 및 목적· 1
      • 1.2 연구의 범위 및 절차· 3
      • 1.2.1 연구의 범위· 3
      • 1.2.2 연구의 절차· 4
      • 제 2 장 선행 연구 및 이론적 고찰
      • 2.1 교통사고 데이터 특성 및 EPDO 개념· 6
      • 2.1.1 교통사고 데이터 특성· 6
      • 2.1.2 EPDO 개념 7
      • 2.1.3 국내 EPDO 관련 연구· 8
      • 2.1.4 국외 EPDO 관련 연구· 9
      • 2.2 사고 데이터 불균형 문제 및 해결 방안 11
      • 2.3 생성모델(GAN, CTGAN)의 개념과 응용사례 12
      • 2.3.1 GAN 의 기본 구조 및 원리· 12
      • 2.3.2 CTGAN 의 구조 및 특징· 13
      • 2.3.3 CTGAN 관련 국내 연구· 14
      • 2.3.4 CTGAN 관련 국외 연구· 17
      • 2.4 분포 유사성 평가지표 20
      • 2.4.1 KL Divergence 의 정의 21
      • 2.4.2 JS Divergence 의 정의 22
      • 2.5 XGboost 23
      • 2.5.1 XGboost 개념 및 구조 23
      • 2.5.2 XGboost 관련 국내 연구· 25
      • 2.5.3 XGboost 관련 국외 연구· 28
      • 2.6 SHAP(SHapley Additive exPlannations) 31
      • 2.7 조건부 단변량 분석· 33
      • 2.8 본 연구의 차별성 34
      • 제 3 장 자료 수집 및 분석 방법
      • 3.1 서울특별시 및 6 대 광역시 교통사고 현황 35
      • 3.2 자료수집 및 전처리 43
      • 3.3 경미 사고 및 중대 사고 구분· 46
      • 3.4 데이터 균형화 및 증강 방법 49
      • 3.4.1 기존 불균형 해결 기법의 한계 49
      • 3.4.2 CTGAN 도입 이유 및 원리 50
      • 3.4.3 CTGAN 적용 범위 및 생성 데이터 구성 52
      • 3.4.4 CTGAN 학습 변수 구성 및 설명 53
      • 3.4.5 CTGAN 학습 변수의 세부 범주 통합· 54
      • 3.5 CTGAN 생성 데이터 분포 유사성 평가 58
      • 3.5.1 분포 비교 절차 58
      • 3.5.2 서울특별시 분포 비교 58
      • 3.5.3 6 대 광역시 분포 유사성 요약 60
      • 제 4 장 예측모델 설계 및 성능 평가
      • 4.1 XGBoost 모델 개요 및 설계 62
      • 4.2 학습 및 평가 방법 63
      • 4.3 언더샘플링 및 CTGAN 성능평가 비교 65
      • 4.4 변수 중요도 및 SHAP 분석 67
      • 4.4.1 SHAP 분석 개요 및 원리 67
      • 4.4.2 교란 효과 통제 및 변수 보정 69
      • 4.5 지역별 예측 성능 및 SHAP 분석 결과 70
      • 4.6 지역 간 조건부 SHAP 분석 비교 99
      • 4.6.1 공통 주요 위험 요인 분석 99
      • 4.6.2 지역별 차별적 요인 분석 100
      • 4.7 CTGAN 기반 예측 성능 요약 102
      • 제 5 장 단변량 조건부 분석 결과 및 해석 103
      • 5.1 분석 개요 103
      • 5.2 분석 방법 104
      • 5.3 지역별 단변량 조건부 분석 105
      • 5.4 단변량 조건부 분석 결과 126
      • 5.4.1 단변량 조건부 분석 값의 의미 및 해석 126
      • 5.4.2 단변량 조건부 분석 결과 127
      • 5.4.3 지역 간 단변량 위험 패턴 차이 분석 129
      • 제 6 장 결론 130
      • 참고문헌 132
      • Abstract 137
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼