http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
DramaQA: 계층적 질의응답과 함께하는 등장인물 중심 비디오 스토리 이해
최성호(Seongho Choi),온경운(Kyoung-Woon On),허유정(Yu-Jung Heo),장유원(Youwon Jang),서아정(Ahjeong Seo),이승찬(Seungchan Lee),이민수(Minsu Lee),장병탁(Byoung-Tak Zhang) 한국정보과학회 2021 정보과학회 컴퓨팅의 실제 논문지 Vol.27 No.1
본 논문은 비디오 스토리의 포괄적 이해를 위한 새로운 비디오 질의응답 데이터셋 DramaQA를 제안한다. DramaQA 데이터셋은 1) 인간지능의 인지 발달 단계에 기초한 인공지능 시스템에 대한 평가 지표로서의 계층적 질의응답 데이터셋과 2) 스토리의 지역적 일관성을 모델링하기 위한 등장인물 중심의 비디오 주석을 제공하는 것을 목표로 한다. DramaQA 데이터셋은 TV 드라마 “또 오해영”을 이용하여 제작되었으며, 23,928개의 다양한 길이의 비디오로부터 각각 4개의 난이도 중 하나에 포함되는 17,983개의 질의응답 쌍을 포함한다. 데이터셋은 등장인물 중심 시각적 주석이 되어있는 217,308장의 이미지들과 상호참조가 해결된 스크립트를 제공한다. 또한, 우리는 비디오 질의응답에 대한 등장인물중심의 표현을 효과적으로 학습하기 위한 Dual Matching Multistream 모델을 제안하고 DramaQA 데이터셋에 적용하여 등장인물 중심의 비디오 스토리 이해 방법을 제시한다. In this paper, we propose a novel video question answering (Video QA) task, DramaQA, for obtaining a comprehensive understanding of a video story. The DramaQA focuses on two perspectives: 1) hierarchical QAs as an evaluation metric based on the cognitive developmental stages of human intelligence, and 2) character-centered video annotations to model the local coherence of the story. Our dataset is built upon the TV drama “Another Miss Oh” and contains 16,191 QA pairs from 23,928 video clips of various lengths, with each QA pair belonging to one of four difficulty levels. We provide a total of 217,308 annotated images with rich character-centered visual annotations and coreference resolved scripts. In addition, we provide analyses of the dataset as well as a Dual Matching Multistream model which effectively learns character-centered representations of the video to answer questions about the video.