최근 영상 감시 분야에서는 인공지능 기술과 컴퓨팅 능력 향상으로 인하여 지능형 영상 감시 시스템에 딥 러닝 기반 학습 방법이 적용되어 범죄, 화재, 이상 현상과 같은 다양한 이벤트들을...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T14937116
수원 : 경기대학교 대학원, 2018
2018
한국어
RGB-D ; 객체 탐지 ; 2차원 키포인트 탐지 ; 2차원 인간 자세 추정 ; 3차원 인간 자세 추정
경기도
3D Human pose estimation based on object detection using RGB-D information
ix, 70 p. : 삽도 ; 26 cm
경기대학교 논문은 저작권에 의해 보호받습니다.
지도교수: 전준철
참고문헌 : p. 53-58
I804:41002-000000053485
0
상세조회0
다운로드국문 초록 (Abstract)
최근 영상 감시 분야에서는 인공지능 기술과 컴퓨팅 능력 향상으로 인하여 지능형 영상 감시 시스템에 딥 러닝 기반 학습 방법이 적용되어 범죄, 화재, 이상 현상과 같은 다양한 이벤트들을...
최근 영상 감시 분야에서는 인공지능 기술과 컴퓨팅 능력 향상으로 인하여 지능형 영상 감시 시스템에 딥 러닝 기반 학습 방법이 적용되어 범죄, 화재, 이상 현상과 같은 다양한 이벤트들을 강건하게 탐지 할 수 있게 되었다. 일반적으로 CCTV 영상에서 나타나는 보행자들의 행위를 인식하기 위해서는 영상으로부터 객체를 탐지하는 과정과 인간의 신체 관절 부위들을 탐지하여 자세를 추정하는 과정이 필요하다. 그러나 3차원 실세계를 2차원 영상으로 투영시키면서 생기는 3차원 정보의 손실 때문에 폐색 문제가 발생한다. 이러한 폐색 문제는 하나의 객체가 다른 객체에 의해 가려지는 객체 탐지 과정에서의 폐색과 자신의 신체 부위에 의하여 가려지는 자세 추정 과정에서의 자가 폐색으로 나눌 수 있다. 영상에서 객체를 탐지하고, 자세를 추정하기 위해서는 이러한 폐색 문제를 고려하는 것이 필요하다.
따라서 본 연구에서는 CCTV 영상으로부터 인간의 행위를 인식하기 위해서 기존 RGB 정보에 깊이 정보를 추가하여 객체 탐지 과정에서 나타나는 폐색 문제를 해결하여 움직이는 객체를 탐지하고, 탐지된 영역에서 컨볼루션 신경망을 이용하여 인간의 신체 관절 부위인 14개의 키포인트의 위치를 예측한다. 그 다음 인간 자세 추정 과정에서 자가 폐색 현상을 해결하기 위해 2차원 키포인트 예측 결과와 심층 신경망을 이용하여 자세 추정 범위를 3차원 공간상으로 확장함으로써 3차원 인간 자세 추정 연구를 수행한다. RGB-D 정보 기반 객체 탐지 결과는 기존 RGB 정보를 이용한 객체 탐지 방법과 비교하고, 3차원 인간 자세 추정 결과는 Human3.6M 데이터 세트를 이용하여 기존의 3차원 인간 자세 추정 결과들과 비교한다. 3차원 인간 자세 추정으로 얻어진 자세 데이터는 향후 인간 행위 인식을 위한 용이한 데이터로 사용되어 지능형 영상분석 시스템, 의학 분야의 환자 행위 분석, 자율 주행 자동차에서의 보행자 탐지 분야에 적용되어 산업 기술 발달에 기여 할 수 있다.
다국어 초록 (Multilingual Abstract)
Recently, in the field of video surveillance, artificial intelligence technology and improvement of computing ability have been applied to intelligent video surveillance system, so that various events such as crime, fire, and abnormal phenomenon can b...
Recently, in the field of video surveillance, artificial intelligence technology and improvement of computing ability have been applied to intelligent video surveillance system, so that various events such as crime, fire, and abnormal phenomenon can be robustly detected. Generally, in order to recognize the activity of pedestrians in CCTV images, it is necessary to detect the object from the image and to estimate the pose by detecting the human body joints. However, the problem of occlusion occurs due to the loss of 3d information caused by projecting a 3d real world onto a 2d image. This occlusion problem can be divided into occlusion in the object detection process, which is obscured by another object, and self-occlusion in the pose estimation process, which is obscured by the self-body region. It is necessary to consider this occlusion problem in order to detect the object and estimate the pose in the image.
Therefore, in this paper, we detect moving objects by solving the occlusion problem in object detection process by adding depth information to existing RGB information from CCTV images. Then, 14 keypoint positions of the body joint are predicted using the convolutional neural network in the detected region. In order to solve the self-occlusion in the human pose estimation process, the 3d human pose estimation is performed by extending the range of the pose estimation to the 3d space using the 2d keypoint prediction result and the deep neural network. The result of object detection based on RGB-D information is compared with object detection method using existing RGB information, and the result of 3d human pose estimation is compared with existing 3d human pose estimation results using Human3.6M data set. The pose data obtained by 3d human pose estimation is used as easy data for human activity recognition in the future and is applied to intelligent image analysis system, analysis of patient activity in medical field, and pedestrian detection in autonomous car.
목차 (Table of Contents)