참조 비디오 객체 분할(RVOS)은 다수의 객체가 공존하는 비디오에서 사용자가 제시하는 자연어 참조 표현에 정확히 부합하는 단일 객체를 탐지·분할·추적해야 하는 고난도 작업으로, 비디�...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17395713
수원 : 경기대학교 대학원, 2026
2026
한국어
경기도
CDTD-RVOS : A Referring Video Object Segmentation Model via Cross-modal Object Decoding and Referring Expression Decoupling
vii, 42 p. : 삽도 ; 26 cm
논문은 저작권에 의해 보호받습니다.
지도교수: 김인철
참고문헌 : p. 39-41
I804:41002-000000059663
0
상세조회0
다운로드참조 비디오 객체 분할(RVOS)은 다수의 객체가 공존하는 비디오에서 사용자가 제시하는 자연어 참조 표현에 정확히 부합하는 단일 객체를 탐지·분할·추적해야 하는 고난도 작업으로, 비디�...
참조 비디오 객체 분할(RVOS)은 다수의 객체가 공존하는 비디오에서 사용자가 제시하는 자연어 참조 표현에 정확히 부합하는 단일 객체를 탐지·분할·추적해야 하는 고난도 작업으로, 비디오 이해, 지능형 서비스 로봇, 증강현실 등 다양한 응용에서 핵심 역할을 한다. 참조 비디오 객체 분할은 정지 영상 기반의 참조 분할이나 일반 비디오 분할과 달리 시간에 따른 동작 변화, 객체 간 상호작용, 동적 공간관계까지 함께 고려해야 하므로 시각·언어 간 정합을 정교하게 달성하는 것이 관건이다. 본 논문은 이러한 난제를 해결하기 위해 교차-모달 객체 디코딩과 참조 표현 분리를 결합한 트랜스포머(Transformer) 기반의 CDTD-RVOS 모델을 제안한다. 제안 모델은 첫째, 픽셀·프레임·전체 비디오에 이르는 다계층 표현을 통해 객체 특화 시각 특징을 단계적으로 추출한다. 둘째, 참조 표현을 구성하는 단어를 기능적 구성요소로 분리해 핵심 객체, 속성, 관계어 등을 강조하는 텍스트 디커플링 인코딩을 적용하여 언어 표현의 구조적 정보를 풍부하게 보존한다. 셋째, 시각 특징과 언어 특징을 전 계층에서 교차 융합하는 객체 디코딩을 수행하여 모달 간 분포 차이를 줄이고, 프레임 연속성 속에서 일관된 마스크 예측을 가능하게 한다. 아울러 위치 정렬 손실과 의미 정렬 손실을 함께 도입해 참조 대상의 공간적 대응과 의미적 대응을 동시에 강화한다. 본 논문에서는 A2D-Sentences, Ref-YouTube-VOS, Ref-DAVIS 17 등의 세 가지 벤치마크 데이터집합을 이용해 광범위한 정량적, 정성적 평가 실험들을 진행하였다. 정량적 실험들에서는 최신 모델들과 비교해 영역 유사도와 윤곽 정확도 등의 지표에서 일관된 성능 향상을 보였으며, 다양한 장면과 문장 유형에 대해 강건성을 확인하였다. 정성적 평가 실험에서는 다중 객체, 유사 외형 객체, 가려짐과 빠른 이동이 혼재하는 까다로운 상황에서도 참조 표현의 핵심 단어와 관계어를 반영한 정합 덕분에 잘못된 탐지를 줄이고, 추적의 안정성을 높이는 경향을 관찰하였다. 종합하면, 제안 모델 CDTD-RVOS는 교차-모달 인코딩·디코딩, 그리고 참조 표현의 언어적 분리를 효과적으로 수행함으로써 참조 비디오 객체 분할 작업의 핵심 난제들을 체계적으로 해결하였고, 본 논문에서는 다양한 실험들을 통해 이 모델의 우수한 성능과 일반화를 입증하였다.
다국어 초록 (Multilingual Abstract)
Referring Video Object Segmentation (RVOS) seeks to detect, segment, and track the single object in a multi-object video that matches a natural-language expression, demanding precise vision-language alignment under temporal dynamics and interactions. ...
Referring Video Object Segmentation (RVOS) seeks to detect, segment, and track the single object in a multi-object video that matches a natural-language expression, demanding precise vision-language alignment under temporal dynamics and interactions. We introduce CDTD-RVOS, a Transformer-based model that combines cross-modal object decoding with text decoupling. The model extracts object-focused visual cues at pixel, frame, and whole-video scales, while the referring expression is decomposed into the core entity, its attributes, and relations to other objects to preserve rich linguistic structure. Cross-modal fusion at every layer reduces modality gaps and enforces temporally consistent masks, and position and semantics alignment losses further strengthen spatial and semantic correspondence. Extensive experiments on A2D-Sentences, Ref-YouTube-VOS, and Ref-DAVIS17 show consistent gains over strong baselines in overlap and contour metrics, with qualitative robustness to look-alike distractors, occlusions, and fast motion. These results indicate that CDTD-RVOS effectively addresses core RVOS challenges while providing strong accuracy and generalization across benchmarks.
목차 (Table of Contents)