긴 비디오 이해는 비디오 내 다양한 의미단위들을 찾고, 이들 간 복잡한 관계 해석에 초점을 맞춘다. 기존 방식은 합성곱 신경망이나 transformer 기반 모델을 활용하여 짧은 클립들에 대한 문...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A109241262
2024
Korean
KCI우수등재
학술저널
801-806(6쪽)
0
상세조회0
다운로드국문 초록 (Abstract)
긴 비디오 이해는 비디오 내 다양한 의미단위들을 찾고, 이들 간 복잡한 관계 해석에 초점을 맞춘다. 기존 방식은 합성곱 신경망이나 transformer 기반 모델을 활용하여 짧은 클립들에 대한 문...
긴 비디오 이해는 비디오 내 다양한 의미단위들을 찾고, 이들 간 복잡한 관계 해석에 초점을 맞춘다. 기존 방식은 합성곱 신경망이나 transformer 기반 모델을 활용하여 짧은 클립들에 대한 문맥정보를 인코딩하고, 이들 간의 시간적 관계를 고려한다. 그러나 해당 방식으로는 비디오 내부에 존재하는 의미 단위들간 복잡한 관계 포착이 어렵다. 본 논문에서는 이러한 의미단위들 간 관계를 명시적으로 표현하기 위해 객체를 정점, 객체들 간 시공간 관계를 간선으로 하는 시공간 그래프로 비디오 입력을 재표현한다. 또한, 해당 그래프에서 시공간 랜덤워크를 통해 얻은 고차원적 의미관계(high-order relationship) 정보를 활용하여, 주요 의미단위를 더 작은 단위들의 구성으로 표현하는 새로운 방법을 제안한다. 다양한 물체들의 복잡한 행동에 관련된 비디오 데이터셋 CATER를 활용한 실험으로, 제안하는 방식이 효과적인 의미단위 포착능력을 가짐을 입증하였다.
다국어 초록 (Multilingual Abstract)
Understanding a long video focuses on finding various semantic units present in the video and interpreting complex relationships among them. Conventional approaches utilize models based on CNNs or transformers to encode contextual information for shor...
Understanding a long video focuses on finding various semantic units present in the video and interpreting complex relationships among them. Conventional approaches utilize models based on CNNs or transformers to encode contextual information for short clips and then consider temporal relationships among them. However, such approaches struggle to capture complex relationships among smaller semantic units within video clips. In this paper, we present video inputs using a spatiotemporal graph with objects as vertices and relative space-time information between objects as edges, to explicitly express relationships among these semantic units. Additionally, we proposed a novel method to represent major semantic units as compositions of smaller units using high-order relationship information obtained by spatiotemporal random walks on the graph. Through experiments on CATER dataset, which involved complex actions of multiple objects, we demonstrated that our approach exhibited effective semantic unit capturing capabilities.
대규모 자연어 모델의 병렬 학습 가속화를 위한 서버 할당 최적화 알고리즘 비교 연구
상용 시스템에서 구동 가능한 소프트웨어 기반의 안전한 분리 메모리 시스템
CCTV 동영상에서 보행자 이상행동 이벤트 검출을 위한 딥러닝 기반 이상행동 이벤트 인식 방법
Octave-YOLO: 실시간 객체 탐지를 위한 직접적 다중 스케일 특징 융합