RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models = 시각-언어모델의복합적시각정보이해에대한 기초시각 능력으로의세분화

      한글로보기

      https://www.riss.kr/link?id=T17314558

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지
      만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인
      2차원유클리드 기하학 영역에주목하여, 더이상 나눌수없는근본적인시각
      인지능력을체계적으로 분류하고이를 원자적시각능력이라고부른다. 또한
      우리는원자적시각능력을평가하기 위한 원자적시각능력 데이터셋(Atomic
      Visual Skills Dataset, AVSD)을제안한다. AVSD를 사용하여최신시각-언어
      모델들의성능을벤치마킹한 결과, 이모델들이성인인간에게는매우쉬운이
      러한 과제에도어려움을겪는다는것을확인하였다. 우리의결과는시각-언어
      모델을복합적인시각인지과제가아니라 원자적인시각인지과제를 통해 훈련
      및평가할 수있는목적중심의데이터셋이필요함을시사한다.
      번역하기

      최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지 만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인 2차원유클리드 기하학 영역에주목하여...

      최근 시각-언어모델들은뛰어난 다중모달이해와추론 능력을보여주고있지
      만, 종종매우단순한 시각적과제에도어려움을겪는다. 본연구에서는기초적인
      2차원유클리드 기하학 영역에주목하여, 더이상 나눌수없는근본적인시각
      인지능력을체계적으로 분류하고이를 원자적시각능력이라고부른다. 또한
      우리는원자적시각능력을평가하기 위한 원자적시각능력 데이터셋(Atomic
      Visual Skills Dataset, AVSD)을제안한다. AVSD를 사용하여최신시각-언어
      모델들의성능을벤치마킹한 결과, 이모델들이성인인간에게는매우쉬운이
      러한 과제에도어려움을겪는다는것을확인하였다. 우리의결과는시각-언어
      모델을복합적인시각인지과제가아니라 원자적인시각인지과제를 통해 훈련
      및평가할 수있는목적중심의데이터셋이필요함을시사한다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Recent Vision Language Models (VLMs) have demonstrated impressive multi-
      modal comprehension and reasoning capabilities, but they often struggle with
      trivially simple visual tasks. In this work, we introduce the Atomic Visual
      Skills Benchmark (AVSBench) to evaluate whether VLMs possess capabilities
      to understand basic geometric features, which we refer to as atomic visual
      skills. Specifically, we systematically categorize the atomic visual skills and
      handcraft a set of 5,073 diverse questions designed to assess each individual
      atomic visual skill. Using AVSBench, we evaluate the current leading VLMs
      and find that they struggle with most of these atomic visual skills that are
      obvious to humans.
      번역하기

      Recent Vision Language Models (VLMs) have demonstrated impressive multi- modal comprehension and reasoning capabilities, but they often struggle with trivially simple visual tasks. In this work, we introduce the Atomic Visual Skills Benchmark (AVSBenc...

      Recent Vision Language Models (VLMs) have demonstrated impressive multi-
      modal comprehension and reasoning capabilities, but they often struggle with
      trivially simple visual tasks. In this work, we introduce the Atomic Visual
      Skills Benchmark (AVSBench) to evaluate whether VLMs possess capabilities
      to understand basic geometric features, which we refer to as atomic visual
      skills. Specifically, we systematically categorize the atomic visual skills and
      handcraft a set of 5,073 diverse questions designed to assess each individual
      atomic visual skill. Using AVSBench, we evaluate the current leading VLMs
      and find that they struggle with most of these atomic visual skills that are
      obvious to humans.

      더보기

      목차 (Table of Contents)

      • Abstract i
      • Contents ii
      • List of Figures iv
      • List of Tables vi
      • 1 Introduction 1
      • Abstract i
      • Contents ii
      • List of Figures iv
      • List of Tables vi
      • 1 Introduction 1
      • 1.1 Prior Works 3
      • 2 Failure on composite geometric perception 7
      • 3 Atomic Visual Skills Dataset (AVSD) 9
      • 3.1 AVSD-h 11
      • 3.2 AVSD-s 11
      • 3.3 AVSD-c 12
      • 4 Experiments 14
      • 4.1 Evaluation of state-of-the-art VLMs 16
      • 4.2 Fine-tuning on atomic visual skills 17
      • 5 Conclusion 20
      • 6 Appendix 21
      • Bibliography 22
      • 초 록
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼