Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models = 시각-언어모델의복합적시각정보이해에대한 기초시각 능력으로의세분화|RISS 상세보기

국문 초록 (Abstract)

최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지
만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인
2차원유클리드 기하학 영역에주목하여, 더이상 나눌수없는근본적인시각
인지능력을체계적으로 분류하고이를 원자적시각능력이라고부른다. 또한
우리는원자적시각능력을평가하기 위한 원자적시각능력 데이터셋(Atomic
Visual Skills Dataset, AVSD)을제안한다. AVSD를 사용하여최신시각-언어
모델들의성능을벤치마킹한 결과, 이모델들이성인인간에게는매우쉬운이
러한 과제에도어려움을겪는다는것을확인하였다. 우리의결과는시각-언어
모델을복합적인시각인지과제가아니라 원자적인시각인지과제를 통해 훈련
및평가할 수있는목적중심의데이터셋이필요함을시사한다.

번역하기

최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지 만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인 2차원유클리드 기하학 영역에주목하여...

다국어 초록 (Multilingual Abstract)

Recent Vision Language Models (VLMs) have demonstrated impressive multi-
modal comprehension and reasoning capabilities, but they often struggle with
trivially simple visual tasks. In this work, we introduce the Atomic Visual
Skills Benchmark (AVSBench) to evaluate whether VLMs possess capabilities
to understand basic geometric features, which we refer to as atomic visual
skills. Specifically, we systematically categorize the atomic visual skills and
handcraft a set of 5,073 diverse questions designed to assess each individual
atomic visual skill. Using AVSBench, we evaluate the current leading VLMs
and find that they struggle with most of these atomic visual skills that are
obvious to humans.

번역하기

목차 (Table of Contents)

Abstract i
Contents ii
List of Figures iv
List of Tables vi
1 Introduction 1

Abstract i
Contents ii
List of Figures iv
List of Tables vi
1 Introduction 1
1.1 Prior Works 3
2 Failure on composite geometric perception 7
3 Atomic Visual Skills Dataset (AVSD) 9
3.1 AVSD-h 11
3.2 AVSD-s 11
3.3 AVSD-c 12
4 Experiments 14
4.1 Evaluation of state-of-the-art VLMs 16
4.2 Fine-tuning on atomic visual skills 17
5 Conclusion 20
6 Appendix 21
Bibliography 22
초 록

상세검색

RISS 보유자료

상세검색

해외전자자료

Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models = 시각-언어모델의복합적시각정보이해에대한 기초시각 능력으로의세분화

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료