건설 현장 작업자 이동 사고 데이터셋 자동 분류: 언어모델 기반 분류 성능 평가 = Automated Classification of Construction Site Worker Walking-Related Accident Datasets: Performance Evaluation of Language Model-Based Classification|RISS 상세보기

국문 초록 (Abstract)

건설 현장은 공정 진행에 따라 작업 공간과 동선이 지속적으로 변화하고, 실외 환경 요인까지 복합적으로 작용함에 따라 작업자의 이동 자체가 중요한 사고 위험 요인으로 작용한다. 그러나 기존 건설 사고 데이터는 사고 유형, 공종, 공사 규모 등 유형 중심의 분류 체계를 기반으로 수집되어 왔기 때문에, 작업자 이동 과정에서 발생한 사고는 여러 항목에 분산되어 축적되며 이동이라는 관점에서 일관된 분석이 어렵다는 한계를 지닌다. 본 연구의 목적은 건설 재해보고서의 텍스트 데이터를 활용하여 작업자의 이동이 사고 발생의 직접적인 원인이 된 사고를 이동 사고로 정의하고, 이동 사고, 작업 사고, 분류불능의 3진 분류 체계를 수립함으로써 이동 사고 데이터셋을 구축한 뒤, 언어모델 기반 자동 분류 기법을 통해 이를 전체 사고 데이터로 확장 가능한 자동 분류 모델을 제안하는 데 있다. 연구에서는 한국 건설안전관리 종합정보망(CSI)에서 수집된 33,947건의 건설 사고 사례를 대상으로, 정의된 라벨링 기준에 따라 1,360건의 사고를 이동 사고, 작업 사고, 분류불능의 세 클래스로 수동 라벨링하였다. 라벨 데이터에 대해 사전 학습된 BERT 모델을 미세조정하여 문맥 임베딩을 생성하고, 이를 입력으로 하는 13종의 머신러닝 분류기를 층화 5-fold 교차검증과 하이퍼파라미터 탐색을 통해 학습하였다. 분류 성능은 혼동행렬을 기반으로 이동 사고 클래스 기준의 정밀도, 재현율, F1 점수를 중심으로 평가하였다. 또한 동일한 분류 기준을 프롬프트로 제공한 생성형 AI의 분류 성능과 비교 분석을 수행하였다. 분석 결과, 다수의 분류기에서 이동 사고 클래스 기준 정밀도와 재현율이 모두 0.92 이상으로 나타났으며, Random Forest 모델은 이동 사고 정밀도 0.934로 가장 높은 순도를 보였고, Naïve Bayes 모델은 이동 사고 F1 점수 0.929로 가장 균형 잡힌 성능을 나타냈다. 최종적으로 선정된 분류기를 미세조정 된 BERT 임베딩 모델과 결합하여 전체 사고 데이터에 적용함으로써, 건설 현장 작업자 이동 사고 데이터셋을 자동으로 구축하고 연도별, 공종별, 작업 프로세스별 이동 사고 분포를 도출하였다. 본 연구는 작업자의 관점에서 이동 사고를 재정의하고, 분류불능 클래스를 포함한 3진 분류 체계를 제안함으로써 이동 사고 데이터 구축의 기준을 제시하였다는 점에서 의의를 갖는다. 또한 언어모델 임베딩과 머신러닝 분류기를 결합한 자동 분류 절차를 실제 대규모 사고 데이터에 적용해 성능을 검증함으로써, 향후 이동 중심의 건설 안전관리, 임시 통로 및 동선 계획, 안전교육 콘텐츠 개발을 위한 기초 데이터로 활용될 수 있다. 주제어: 작업자 이동 사고, 텍스트 데이터, 언어 모델, 머신러닝 분류기, 지도학습

번역하기

건설 현장은 공정 진행에 따라 작업 공간과 동선이 지속적으로 변화하고, 실외 환경 요인까지 복합적으로 작용함에 따라 작업자의 이동 자체가 중요한 사고 위험 요인으로 작용한다. 그러나...

목차 (Table of Contents)