RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 비디오 의미 구간 탐지를 위한 후보 구간 매칭 및 보정 네트워크 : 2D 시간적 후보 구간 보정 및 크로스 모달 대조 학습 이용

        설무아 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 234351

        Temporal moment localization (TML) aims to retrieve the best moment in a video that matches a given sentence query. This task is challenging as it requires understanding the relationship between a video and a sentence, as well as the semantic meaning of both. TML methods using 2D temporal maps, which represent proposal features or scores on all moment proposals with the boundaries of start and end times on the m and n axes, have shown performance improvements by modeling moment proposals in relation to each other. The methods, however, are limited by the coarsely pre-defined fixed boundaries of target moments, which depend on the length of training videos and the amount of memory available. To overcome this limitation, we propose a boundary matching and refinement network (BMRN) that generates 2D boundary matching and refinement maps along with a proposal feature map to obtain the final proposal score map. Our BMRN adjusts the fixed boundaries of moment proposals with predicted center and length offsets from boundary refinement maps. In addition, we introduce the length-aware proposal-interactive feature map extraction that combines a cross-modal feature map and a similarity map between the predicted duration of the target moment and each moment proposal and then obtain the final proposal feature map through two-stream proposal interaction by applying for two-dimensional convolution and transformer layers to the combined feature map. We also improve the performance of BMRN with our cross-modal contrastive approach for TML. BMRN and BMRN-CCL outperform SoTA methods on Charades-STA and ActivityNet Captions datasets, outperforming state-of-the-art methods by a large margin. Through comprehensive ablation studies, we also show the effectiveness of component losses, modules for cross-modal interaction, proposal interaction, boundary matching and refinement, and cross-modal contrastive learning. Key words : Temporal moment localization, Video understaning, multi-modal learning, 2D-map proposal refinement, Cross-modal contrastive learning 비디오 의미 구간 탐지(Temporal moment localization, TML)는 주어진 문장의 의미에 맞는 비디오 구간을 찾는 것을 목표로 한다. 이 작업은 문장의 의미를 이해하고, 비디오 장면과 문장 간의 관계 성을 찾아야 하므로, 매우 어려운 과제에 속한다. 이를 위한 기존 방법론으로 y축을 시작 시간 x축을 종료 시간으로 하는 2D 시간적 후보 맵을 만들어서, 각 후보 구간의 점수를 도출하는 방식이다. 이 방법은 후보 구간들 간의 상호작용을 모델링함으로써 큰 성능 향상 을 보였다. 그러나 기존 방법의 한계점으로 입력된 비디오의 길이 또는 사용 가능한 컴퓨터 메모리 양에 따라 사전에 정의되고 경계 가 고정된 후보 구간을 이용하므로 정답 구간에 대해 정확한 탐지 를 할 수 없다. 이러한 한계점을 극복하고자, 구간 탐지 및 경계 보 정 네트워크(Boundary Matching and Refinement Network, BMRN)를 제안하였다. 이 네트워크는 최종 후보 구간 점수 맵을 얻 기 위해 2D 후보 구간 특징과 구간 매칭 및 후보 경계 보정 맵을 생성 한다. 후보 구간 보정 맵은 후보 구간의 중심 위치 및 길이를 보정하여 고정된 경계를 조정한다. 또한 크로스 어텐션을 활용하여 후보 구간 길이 스케일에 따른 2D 후보 특징 맵을 추출 하였고, 정 답 구간의 길이를 예측해 각 후보 구간과의 길이 유사성 맵을 만들 어 후보 구간에 바이어스를 주는 방법을 제안하였다. 그리고 후보 구간들 간의 상호작용을 위해 컨볼루션 레이어와 트랜스포머 레이 어를 도입해 보다 효과적인 상호작용 방법을 제시하였다. 또한 크로 스 모달 대조 학습을 통해 비디오와 문장 특징을 보다 정밀하게 연 관시킨 모델인 BMRN-CCL은 기존 BMRN의 성능을 높였다. 제안 한 BMRN-CCL 네트워크는 두 가지 벤치마크 데이터 셋 Charades-STA, ActivityNet Captions에서 기존 SoTA(State of the Art) 모델 대비 큰 마진으로 성능 향상을 보였다. 그리고 다양한 Ablation 실험 결과를 통해 각 손실 함수 및 모듈의 효과성을 입증 하였고, 정성적 실험 결과를 통해 제안한 방법이 2D 후보 점수 맵 이 정답 구간을 잘 추종하며 각 후보 구간의 경계 보정 또한 잘 되 고 있음을 확인할 수 있다. 주요단어(Keyword) : 비디오 의미 구간 탐지, 비디오 이해, 멀티 모 달 학습, 2D 후보 구간 보정, 크로스 모달 대조 학습

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
