http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
유철환(Cheol-Hwan Yoo),김호원(Ho-Won Kim),한병옥(Byung-Ok Han),장재윤(Jae-Yoon Jang),유장희(Jang-Hee Yoo) 대한전자공학회 2021 전자공학회논문지 Vol.58 No.12
동영상에 포함된 반복적, 주기적 구간을 검출하기 위한 기술은 컴퓨터 비전 분야에서 활발히 연구되고 있다. 기존의 기법들은 일반적으로 반복적 구간 검출을 위한 중간 표현으로서 자기 유사성 행렬(SSM)을 생성하여 활용한다. 그러나 기존의 기법들은 단일 스케일에서의 자기 유사성 행렬의 활용으로 인해 다양한 길이 및 스케일의 반복적 행동을 포함한 동영상에 대해 검출 정확도가 떨어지는 한계점을 갖는다. 이러한 한계점을 극복하기 위해 제안하는 네트워크의 인코더에서는 먼저 3차원 합성곱 신경망의 여러 계층에서 추출된 특징 벡터를 활용하여 다양한 시간적 스케일에 대한 정보를 갖는 자기 유사성 행렬을 생성한다. 이렇게 생성된 자기 유사성 행렬들을 멀티 스케일 특징 앙상블 모듈을 통해 멀티 스케일 U-Net의 입력으로 제공함으로써 동영상 내 다양한 길이의 반복적 구간을 효율적으로 검출한다. 제안하는 기법은 Countix, PERTUBE 데이터셋에서의 실험을 통해 기존의 핸드 크래프트 특징 기반의 기법들뿐만 아니라 딥러닝을 활용한 최신 기법들보다 우수한 검출 성능을 보였다. Recently, techniques for detecting repetitive and periodic segments in a video have been extensively studied in the field of computer vision. Conventional methods typically generate and utilize a self-similarity matrix as an intermediate representation for identifying repetitive segments in a video. However, these methods rely on a single-scale self-similarity matrix(SSM) and thus have a limitation that classification accuracy drops for videos including repetitive segments with various lengths and scales. To solve these problems, the encoder of the proposed network firstly generates self-similarity matrices, which incorporate information on various temporal scales by utilizing feature vectors extracted from multiple layers of the 3D CNN. By providing generated self-similarity matrices as input of a multi-scale U-Net through a multi-scale feature ensemble module, repetitive segments of various lengths in the video can be efficiently detected. Extensive experiments on the Countix and PERTUBE datasets demonstrate that the proposed network not only outperforms most hand-craft feature-based methods but also the latest deep learning-based methods.