4족 보행 로봇의 Whole Body Grasping을 위한 Visual Language Navigation 및 강화학습 기반 제어 연구 = A Whole-Body Grasping Control System for a Quadruped Robot based on Visual Language Navigation and Reinforcement Learning|RISS 상세보기

국문 초록 (Abstract)

최근 로봇 기술의 발전에도 불구하고, 비정형 환경에서 인간의 자연어 명령을 이해하고 복잡한 조작(Manipulation) 작업을 자율적으로 수행하는 데에는 여전히 많은 어려움이 따른다. 특히, 4족 보행 로봇과 같이 이동성을 갖춘 플랫폼에서 이동(Navigation)과 조작(Manipulation)을 통합하여 안정적으로 임무를 수행하는 것은 중요한 기술적 과제로 남아있다. 기존의 연구들은 주로 분리된 환경에서 각 기능을 개별적으로 최적화하는 데 초점을 맞추어, 실제 환경에서의 통합적인 문제 해결 능력이 부족한 실정이다.
이에 본 연구는 텍스트 기반의 자연어 명령과 이미지 정보를 활용하여 4족 보행 로봇이 복잡한 환경을 탐색하고 목표물을 성공적으로 조작하는 통합 프레임워크를 제안한다. 먼저, 자연어 명령을 이해하고 시각 정보를 바탕으로 장거리 이동 계획을 수립하기 위해 Vision-Language-Action 모델인 NaVILA를 도입하였다. 이를 통해 로봇은 "방을 나와서 오른쪽으로 돌아 파란색 캔을 집어"와 같은 복합적인 명령을 순차적인 이동 행동과 파지 행동으로 변환하여 수행할 수 있다.
또한, 시뮬레이션 환경에서 학습된 전문가 정책(expert policy)을 실제 환경으로 효과적으로 이전하기 위해 정책 증류(policy distillation) 기법을 활용하였다. 이를 위해 DAgger (Dataset Aggregation) 알고리즘과 GRU (Gated Recurrent Unit) 기반의 속도 제어 모델을 적용하여 Sim-to-Real 과정에서 발생하는 차이를 최소화하였다. 특히, x, y축 선속도, z축 각속도, 그리고 로봇 몸체의 피치(pitch)와 높이(height)로 구성된 5D command를 이용하여 로봇의 몸체와 팔을 동시에 제어함으로써 안정적인 이동성을 확보하였다. 정확한 물체 인지 및 파지 자세 추정을 위해 FAST SAM(Fast Segment Anything Model)을 통해 신속하게 목표 물체의 영역을 분할하였다. 나아가, 최적의 파지 자세 추정 방법론을 확립하기 위해 Point Cloud 기반 주요 파지 인식 모델에 대한 성능 비교 분석 (Ablation Study)을 수행하였다. 본 비교 검증을 통해 시스템에 가장 적합한 모델을 선정하였으며, 이를 바탕으로 다양한 형태와 크기의 물체를 안정적으로 조작하는 데 성공하였다.
본 연구는 자연어 이해 기반의 장거리 네비게이션과 정교한 조작 작업을 단일 프레임워크 내에서 통합적으로 구현했다는 점에서 큰 의의를 가진다. 제안된 시스템의 성능을 검증하기 위해 시뮬레이션 및 실제 로봇 환경에서 다양한 시나리오 기반의 실험을 수행하였으며, 이를 통해 복잡한 명령에 대한 최대 70%의 임무 성공률을 보였다. 본 연구의 결과는 향후 인간과 로봇의 상호작용을 기반으로 하는 다양한 서비스 로봇 및 물류 시스템에 핵심적인 기술로 활용될 수 있을 것으로 기대된다.

번역하기

최근 로봇 기술의 발전에도 불구하고, 비정형 환경에서 인간의 자연어 명령을 이해하고 복잡한 조작(Manipulation) 작업을 자율적으로 수행하는 데에는 여전히 많은 어려움이 따른다. 특히, 4족 ...

목차 (Table of Contents)