최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지 만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인 2차원유클리드 기하학 영역에주목하여...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지 만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인 2차원유클리드 기하학 영역에주목하여...
최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지
만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인
2차원유클리드 기하학 영역에주목하여, 더이상 나눌수없는근본적인시각
인지능력을체계적으로 분류하고이를 원자적시각능력이라고부른다. 또한
우리는원자적시각능력을평가하기 위한 원자적시각능력 데이터셋(Atomic
Visual Skills Dataset, AVSD)을제안한다. AVSD를 사용하여최신시각-언어
모델들의성능을벤치마킹한 결과, 이모델들이성인인간에게는매우쉬운이
러한 과제에도어려움을겪는다는것을확인하였다. 우리의결과는시각-언어
모델을복합적인시각인지과제가아니라 원자적인시각인지과제를 통해 훈련
및평가할 수있는목적중심의데이터셋이필요함을시사한다.
다국어 초록 (Multilingual Abstract)
Recent Vision Language Models (VLMs) have demonstrated impressive multi- modal comprehension and reasoning capabilities, but they often struggle with trivially simple visual tasks. In this work, we introduce the Atomic Visual Skills Benchmark (AVSBenc...
Recent Vision Language Models (VLMs) have demonstrated impressive multi-
modal comprehension and reasoning capabilities, but they often struggle with
trivially simple visual tasks. In this work, we introduce the Atomic Visual
Skills Benchmark (AVSBench) to evaluate whether VLMs possess capabilities
to understand basic geometric features, which we refer to as atomic visual
skills. Specifically, we systematically categorize the atomic visual skills and
handcraft a set of 5,073 diverse questions designed to assess each individual
atomic visual skill. Using AVSBench, we evaluate the current leading VLMs
and find that they struggle with most of these atomic visual skills that are
obvious to humans.
목차 (Table of Contents)