RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      건설 현장 작업자 이동 사고 데이터셋 자동 분류: 언어모델 기반 분류 성능 평가 = Automated Classification of Construction Site Worker Walking-Related Accident Datasets: Performance Evaluation of Language Model-Based Classification

      한글로보기

      https://www.riss.kr/link?id=T17371138

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      건설 현장은 공정 진행에 따라 작업 공간과 동선이 지속적으로 변화하고, 실외 환경 요인까지 복합적으로 작용함에 따라 작업자의 이동 자체가 중요한 사고 위험 요인으로 작용한다. 그러나 기존 건설 사고 데이터는 사고 유형, 공종, 공사 규모 등 유형 중심의 분류 체계를 기반으로 수집되어 왔기 때문에, 작업자 이동 과정에서 발생한 사고는 여러 항목에 분산되어 축적되며 이동이라는 관점에서 일관된 분석이 어렵다는 한계를 지닌다. 본 연구의 목적은 건설 재해보고서의 텍스트 데이터를 활용하여 작업자의 이동이 사고 발생의 직접적인 원인이 된 사고를 이동 사고로 정의하고, 이동 사고, 작업 사고, 분류불능의 3진 분류 체계를 수립함으로써 이동 사고 데이터셋을 구축한 뒤, 언어모델 기반 자동 분류 기법을 통해 이를 전체 사고 데이터로 확장 가능한 자동 분류 모델을 제안하는 데 있다. 연구에서는 한국 건설안전관리 종합정보망(CSI)에서 수집된 33,947건의 건설 사고 사례를 대상으로, 정의된 라벨링 기준에 따라 1,360건의 사고를 이동 사고, 작업 사고, 분류불능의 세 클래스로 수동 라벨링하였다. 라벨 데이터에 대해 사전 학습된 BERT 모델을 미세조정하여 문맥 임베딩을 생성하고, 이를 입력으로 하는 13종의 머신러닝 분류기를 층화 5-fold 교차검증과 하이퍼파라미터 탐색을 통해 학습하였다. 분류 성능은 혼동행렬을 기반으로 이동 사고 클래스 기준의 정밀도, 재현율, F1 점수를 중심으로 평가하였다. 또한 동일한 분류 기준을 프롬프트로 제공한 생성형 AI의 분류 성능과 비교 분석을 수행하였다. 분석 결과, 다수의 분류기에서 이동 사고 클래스 기준 정밀도와 재현율이 모두 0.92 이상으로 나타났으며, Random Forest 모델은 이동 사고 정밀도 0.934로 가장 높은 순도를 보였고, Naïve Bayes 모델은 이동 사고 F1 점수 0.929로 가장 균형 잡힌 성능을 나타냈다. 최종적으로 선정된 분류기를 미세조정 된 BERT 임베딩 모델과 결합하여 전체 사고 데이터에 적용함으로써, 건설 현장 작업자 이동 사고 데이터셋을 자동으로 구축하고 연도별, 공종별, 작업 프로세스별 이동 사고 분포를 도출하였다. 본 연구는 작업자의 관점에서 이동 사고를 재정의하고, 분류불능 클래스를 포함한 3진 분류 체계를 제안함으로써 이동 사고 데이터 구축의 기준을 제시하였다는 점에서 의의를 갖는다. 또한 언어모델 임베딩과 머신러닝 분류기를 결합한 자동 분류 절차를 실제 대규모 사고 데이터에 적용해 성능을 검증함으로써, 향후 이동 중심의 건설 안전관리, 임시 통로 및 동선 계획, 안전교육 콘텐츠 개발을 위한 기초 데이터로 활용될 수 있다. 주제어: 작업자 이동 사고, 텍스트 데이터, 언어 모델, 머신러닝 분류기, 지도학습
      번역하기

      건설 현장은 공정 진행에 따라 작업 공간과 동선이 지속적으로 변화하고, 실외 환경 요인까지 복합적으로 작용함에 따라 작업자의 이동 자체가 중요한 사고 위험 요인으로 작용한다. 그러나...

      건설 현장은 공정 진행에 따라 작업 공간과 동선이 지속적으로 변화하고, 실외 환경 요인까지 복합적으로 작용함에 따라 작업자의 이동 자체가 중요한 사고 위험 요인으로 작용한다. 그러나 기존 건설 사고 데이터는 사고 유형, 공종, 공사 규모 등 유형 중심의 분류 체계를 기반으로 수집되어 왔기 때문에, 작업자 이동 과정에서 발생한 사고는 여러 항목에 분산되어 축적되며 이동이라는 관점에서 일관된 분석이 어렵다는 한계를 지닌다. 본 연구의 목적은 건설 재해보고서의 텍스트 데이터를 활용하여 작업자의 이동이 사고 발생의 직접적인 원인이 된 사고를 이동 사고로 정의하고, 이동 사고, 작업 사고, 분류불능의 3진 분류 체계를 수립함으로써 이동 사고 데이터셋을 구축한 뒤, 언어모델 기반 자동 분류 기법을 통해 이를 전체 사고 데이터로 확장 가능한 자동 분류 모델을 제안하는 데 있다. 연구에서는 한국 건설안전관리 종합정보망(CSI)에서 수집된 33,947건의 건설 사고 사례를 대상으로, 정의된 라벨링 기준에 따라 1,360건의 사고를 이동 사고, 작업 사고, 분류불능의 세 클래스로 수동 라벨링하였다. 라벨 데이터에 대해 사전 학습된 BERT 모델을 미세조정하여 문맥 임베딩을 생성하고, 이를 입력으로 하는 13종의 머신러닝 분류기를 층화 5-fold 교차검증과 하이퍼파라미터 탐색을 통해 학습하였다. 분류 성능은 혼동행렬을 기반으로 이동 사고 클래스 기준의 정밀도, 재현율, F1 점수를 중심으로 평가하였다. 또한 동일한 분류 기준을 프롬프트로 제공한 생성형 AI의 분류 성능과 비교 분석을 수행하였다. 분석 결과, 다수의 분류기에서 이동 사고 클래스 기준 정밀도와 재현율이 모두 0.92 이상으로 나타났으며, Random Forest 모델은 이동 사고 정밀도 0.934로 가장 높은 순도를 보였고, Naïve Bayes 모델은 이동 사고 F1 점수 0.929로 가장 균형 잡힌 성능을 나타냈다. 최종적으로 선정된 분류기를 미세조정 된 BERT 임베딩 모델과 결합하여 전체 사고 데이터에 적용함으로써, 건설 현장 작업자 이동 사고 데이터셋을 자동으로 구축하고 연도별, 공종별, 작업 프로세스별 이동 사고 분포를 도출하였다. 본 연구는 작업자의 관점에서 이동 사고를 재정의하고, 분류불능 클래스를 포함한 3진 분류 체계를 제안함으로써 이동 사고 데이터 구축의 기준을 제시하였다는 점에서 의의를 갖는다. 또한 언어모델 임베딩과 머신러닝 분류기를 결합한 자동 분류 절차를 실제 대규모 사고 데이터에 적용해 성능을 검증함으로써, 향후 이동 중심의 건설 안전관리, 임시 통로 및 동선 계획, 안전교육 콘텐츠 개발을 위한 기초 데이터로 활용될 수 있다. 주제어: 작업자 이동 사고, 텍스트 데이터, 언어 모델, 머신러닝 분류기, 지도학습

      더보기

      목차 (Table of Contents)

      • 국문초록 i
      • 목차 iii
      • 표목차 vi
      • 그림목차 vii
      • 국문초록 i
      • 목차 iii
      • 표목차 vi
      • 그림목차 vii
      • 제 1 장 서론 1
      • 1.1. 연구 배경 및 목적 1
      • 1.1.1. 건설 사고 데이터 분류 및 텍스트 활용 연구 가능성1
      • 1.1.2. 건설 현장 작업자의 이동사고 데이터의 필요성 4
      • 1.1.3. 연구 목적 6
      • 1.2. 연구 범위 및 방법 7
      • 1.2.1. 연구 범위 7
      • 1.2.2. 연구 방법 11
      • 제 2 장 문헌고찰 12
      • 2.1. 건설 현장 내 작업자 이동 안전 12
      • 2.1.1. 사고 데이터 기반 작업자 이동 안전 연구 12
      • 2.1.2. 센서 기반 작업자 이동 안전 연구 13
      • 2.2. 언어모델 기반 텍스트 데이터 활용 15
      • 2.2.1. 텍스트 데이터 분류를 위한 자연어 처리 15
      • 2.2.2. 데이터 분류를 위한 머신러닝 분류기 16
      • 제 3 장 방법론 19
      • 3.1. 데이터 수집 및 전처리 21
      • 3.2. 데이터 라벨링 기준 수립 22
      • 3.3. 이동 사고 데이터 구축 26
      • 3.4. 언어 모델 미세조정 및 임베딩 벡터 추출 27
      • 3.5. 머신러닝 분류기 학습 31
      • 3.6. 머신러닝 분류기 테스트 38
      • 제 4 장 연구 결과 41
      • 4.1. 분류기 모델 테스트 결과 41
      • 4.2. 생성형 AI 와의 비교 평가 46
      • 4.2. 분류 실패 사례 분석 50
      • 제 5 장 논의 55
      • 5.1. 이동 사고 분류의 타당성 고찰 55
      • 5.1.1. 이동 사고 정의의 타당성 고찰 55
      • 5.1.2. 기존 사고 데이터와 이동 사고의 비교 57
      • 5.2. 이동 사고 데이터 분석 59
      • 5.3. 활용 방안 67
      • 제 6 장 결론 70
      • 참고문헌 74
      • Abstract 79
      • 부록 83
      • 부록 1. 데이터 수집 코드 84
      • 부록 2. 전처리 코드 90
      • 부록 3. BERT Fine-tuning 코드 94
      • 부록 4. 머신러닝 분류기 학습 및 테스트 100
      • 부록 5. 전체 라벨링 코드 108
      • 부록 6. 머신러닝 모델별 최적 하이퍼 파라미터 설정 TOP10 111
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼