본 논문은 미지의 환경에서 자유형식의 자연어 지시만으로 목표 물체를 찾아 이동하는 언어-기반 제로-샷 물체 탐색 이동(L-ZSON) 에이전트를 제안한다. L-ZSON 작업은 에이전트가 해당 환경에...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17395707
수원 : 경기대학교 대학원, 2026
2026
한국어
경기도
AML : An AI Foundation Model-based Agent for Language-Driven Zero-Shot Object Navigation
vii, 42 p. : 삽도 ; 26 cm
논문은 저작권에 의해 보호받습니다.
지도교수: 김인철
참고문헌 : p. 39-41
I804:41002-000000059678
0
상세조회0
다운로드본 논문은 미지의 환경에서 자유형식의 자연어 지시만으로 목표 물체를 찾아 이동하는 언어-기반 제로-샷 물체 탐색 이동(L-ZSON) 에이전트를 제안한다. L-ZSON 작업은 에이전트가 해당 환경에...
본 논문은 미지의 환경에서 자유형식의 자연어 지시만으로 목표 물체를 찾아 이동하는 언어-기반 제로-샷 물체 탐색 이동(L-ZSON) 에이전트를 제안한다. L-ZSON 작업은 에이전트가 해당 환경에서 사전 학습없이 실시간 RGB-D 영상과 제한된 이산 행동 집합 {MoveForward, TurnRight, TurnLeft, LookDown, LookUp, Stop}만으로 작업을 수행해야 하며, 이는 (i) 자연어로 기술된 목표 물체를 영상에서 시각적 그라운딩하는 능력, (ii) 방·가구·아이템과 그 사이의 의미적 공간 관계를 표현하는 공간 맥락 지도 구축 능력, (iii) 목표가 시야에 포착되기 전까지 탐색 정책을 수립하는 능력을 동시에 요구한다. 하지만 기존 목표 물체 그라운딩 기법들은 목표 물체 서술에 취약하고, 기존 점유 지도나 의미적 지도 역시 물체 간의 관계 정보가 부족하다는 한계가 있으며, 대규모 언어 모델(LLM)을 이용하는 탐색 정책들도 프롬프트 맥락 정보의 제한성을 가지고 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 AML(Agent Model for L-ZSON) 에이전트 모델을 제안한다. 첫째, 목표 물체 서술의 시각적 그라운딩을 위해 AML 모델은 참조 영상 분할이 가능한 VLM GLEE를 채용하여 자유형식 지시에 부합하는 물체의 위치·식별을 수행하고, 목표가 영상에 없을 때 발생할 수 있는 오인식을 GLIP 신호로 보완한다. 둘째, 공간 맥락 지도 구축을 위해 제안 모델 AML은 점유 지도와 의미적 지도 위에서 공간 추론을 통해 유도한 물체 간의 공간 관계를 추가함으로써, L-ZSON 작업을 위한 의미적 공간 맥락 지도를 구축한다. 셋째, 효율적인 탐색 정책을 얻기 위해 AML 모델은 대규모 언어 모델에 대한 맥락 정보 기반 프롬프팅을 이용하고, 대규모 언어 모델의 응답을 토대로 확률적 추론을 통해 우선적으로 탐색해야 할 방과 물체들을 구해낸다. 본 논문에서는 3D 시뮬레이터 RoboTHOR 기반의 벤치마크 데이터 집합인 PASTURE를 이용해 다양한 정량적, 정성적 실험들을 수행하였다. 실험 결과, 제안 모델 AML은 PASTURE의 모든 작업 유형과 환경에서 높은 작업 성공률을 보여주었고, 공간 관계 묘사 및 숨겨져 있는 목표 물체의 탐색 작업들에서 탐색 길이 단축과 잘못된 방 진입 감소를 확인할 수 있었다.
다국어 초록 (Multilingual Abstract)
In this paper, we propose an agent model for Language-Driven Zero-Shot Object Navigation (L-ZSON), which takes a freeform language description of an unseen target object and navigates to locate it in an unfamiliar environment. An L-ZSON agent should v...
In this paper, we propose an agent model for Language-Driven Zero-Shot Object Navigation (L-ZSON), which takes a freeform language description of an unseen target object and navigates to locate it in an unfamiliar environment. An L-ZSON agent should visually ground the target object by understanding the description and recognizing the corresponding visual instance in camera images. It also needs to build a spatial context map of the unknown environment and choose efficient exploration actions until the target object appears in view. To address these issues, we propose AML (Agent Model for L-ZSON), which effectively leverages foundation models such as Large Language Models (LLMs) and Vision-Language Models (VLMs). For visual grounding, AML employs GLEE, a VLM pretrained to locate arbitrary objects in open-world scenarios, and for exploration, it uses the commonsense knowledge of LLMs to make sequential navigational decisions. Through quantitative and qualitative experiments on RoboTHOR and PASTURE, we demonstrate the superior performance of AML.
목차 (Table of Contents)