최근 빈번히 발생 되는 폭력을 동반한 강력 범죄에 대해 사회적 불안감이 고조되면서 범죄 예방을 위한 감시 및 범죄 발생 시 신속한 대처를 위해 CCTV 지능형 영상 감시시스템의 필요성이 증...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17175927
서울 : 국민대학교 소프트웨어융합대학원, 2024
학위논문(석사) -- 국민대학교 소프트웨어융합대학원 , 인공지능전공 , 2025. 2
2024
한국어
폭력 행위 검출 ; 자세 추정 ; 얼굴 검출 ; 감정 인식 ; 컴퓨터비전 ; TensorRT ; Violence Detection ; Pose Estimation ; Face Detection ; Emotion Recognition ; Computer Vision ; TensorRT
서울
iv, 56 ; 26 cm
지도교수: 윤상민
I804:11014-200000865550
0
상세조회0
다운로드최근 빈번히 발생 되는 폭력을 동반한 강력 범죄에 대해 사회적 불안감이 고조되면서 범죄 예방을 위한 감시 및 범죄 발생 시 신속한 대처를 위해 CCTV 지능형 영상 감시시스템의 필요성이 증...
최근 빈번히 발생 되는 폭력을 동반한 강력 범죄에 대해 사회적 불안감이 고조되면서 범죄 예방을 위한 감시 및 범죄 발생 시 신속한 대처를 위해 CCTV 지능형 영상 감시시스템의 필요성이 증가하고 있다. 영상 분석을 통한 폭력 행위 검출방식 중 하나로 자세 추정 모델을 활용한 행위기반 검출방식이 이용되고 있다. 그러나 자세 추정 모델을 통해 얻은 관절 각도와 변화만으로 폭력 행위를 감지하게 되면, 머리를 쓰다듬는 행위나 hug 동작과 같은 비폭력 장면을 폭력 행위로 오검출하는 문제가 발생할 수 있다.
본 연구는 자세 추정 모델만을 활용한 행위기반 폭력 검출방식의 오검출 빈도를 감소시키는 데 목적이 있다. 기존의 행위기반 폭력 검출방식인 자세 추정 검출방식에 피격 자로 예상되는 대상의 얼굴 감정 인식 결과(angry, disgust, fear, sad, surprise, happy, neutral)를 조합한 새로운 폭력 검출방식을 제안한다. Youtube video 및 Self-made video로 이루어진 영상 데이터셋에 대해서 자세 추정 모델과 얼굴 감정 인식 결과를 조합하는 방법으로 기존 자세 추정 모델만을 이용한 폭력 검출방식 대비 85% 성능 향상된 92.5%의 정확도를 확인하였다. 본 연구는 인공지능 기반 지능형 영상 감시시스템 개발에 있어 다중 모달리티 접근방식의 효과성을 입증하였다는 점에서 중요한 의의를 가진다. 특히 자세 추정과 감정 인식이라는 서로 다른 특성의 데이터를 결합하여 분석함으로써, 향후 지능형 영상 감시시스템의 새로운 발전 방향을 제시하였다. 향후 연구로는 실제 CCTV 환경에서의 폭력 검출 신뢰도 향상을 위해 실시간 처리 성능 최적화, 다중 객체 트래킹 능력 향상, 그리고 실제 CCTV 환경에서의 장기 필드 테스트를 통한 추가 검증이 필요하다.
다국어 초록 (Multilingual Abstract)
As social anxiety over violent crimes increases, there is a growing need for CCTV intelligent video surveillance systems for crime prevention and rapid response to criminal incidents. Among the methods of detecting violent behavior through video analy...
As social anxiety over violent crimes increases, there is a growing need for CCTV intelligent video surveillance systems for crime prevention and rapid response to criminal incidents. Among the methods of detecting violent behavior through video analysis, pose estimation models are being used for action-based detection. However, when detecting violent behavior solely through joint angles and changes obtained from pose estimation models, false detections can occur in non-violent scenes such as patting someone's head or hugging.
This study aims to reduce the frequency of false detections in action-based violence detection methods that rely solely on pose estimation models. We propose a new violence detection method that combines facial emotion recognition results (angry, disgust, fear, sad, surprise, happy, neutral) of potential victims with the existing action-based violence detection method using pose estimation. Using a video dataset consisting of YouTube videos and self-made videos, the combination of pose estimation model and facial emotion recognition results showed an accuracy of 92.5%, an 85% improvement compared to the existing violence detection method using only pose estimation models. This study holds significant implications as it demonstrates the effectiveness of a multi-modality approach in developing AI-based intelligent video surveillance systems. In particular, by combining and analyzing data with different characteristics - pose estimation and emotion recognition - it suggests a new direction for the future development of intelligent video surveillance systems. Future research requires optimization of real-time processing performance, improvement of multiple object tracking capabilities, and additional verification through long-term field testing in actual CCTV environments to enhance the reliability of violence detection.
목차 (Table of Contents)