RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      CDTD-RVOS : 교차-모달 객체 디코딩과 참조 표현 분리 인코딩을 이용한 참조 비디오 객체 분할 모델

      한글로보기

      https://www.riss.kr/link?id=T17395713

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      참조 비디오 객체 분할(RVOS)은 다수의 객체가 공존하는 비디오에서 사용자가 제시하는 자연어 참조 표현에 정확히 부합하는 단일 객체를 탐지·분할·추적해야 하는 고난도 작업으로, 비디오 이해, 지능형 서비스 로봇, 증강현실 등 다양한 응용에서 핵심 역할을 한다. 참조 비디오 객체 분할은 정지 영상 기반의 참조 분할이나 일반 비디오 분할과 달리 시간에 따른 동작 변화, 객체 간 상호작용, 동적 공간관계까지 함께 고려해야 하므로 시각·언어 간 정합을 정교하게 달성하는 것이 관건이다. 본 논문은 이러한 난제를 해결하기 위해 교차-모달 객체 디코딩과 참조 표현 분리를 결합한 트랜스포머(Transformer) 기반의 CDTD-RVOS 모델을 제안한다. 제안 모델은 첫째, 픽셀·프레임·전체 비디오에 이르는 다계층 표현을 통해 객체 특화 시각 특징을 단계적으로 추출한다. 둘째, 참조 표현을 구성하는 단어를 기능적 구성요소로 분리해 핵심 객체, 속성, 관계어 등을 강조하는 텍스트 디커플링 인코딩을 적용하여 언어 표현의 구조적 정보를 풍부하게 보존한다. 셋째, 시각 특징과 언어 특징을 전 계층에서 교차 융합하는 객체 디코딩을 수행하여 모달 간 분포 차이를 줄이고, 프레임 연속성 속에서 일관된 마스크 예측을 가능하게 한다. 아울러 위치 정렬 손실과 의미 정렬 손실을 함께 도입해 참조 대상의 공간적 대응과 의미적 대응을 동시에 강화한다. 본 논문에서는 A2D-Sentences, Ref-YouTube-VOS, Ref-DAVIS 17 등의 세 가지 벤치마크 데이터집합을 이용해 광범위한 정량적, 정성적 평가 실험들을 진행하였다. 정량적 실험들에서는 최신 모델들과 비교해 영역 유사도와 윤곽 정확도 등의 지표에서 일관된 성능 향상을 보였으며, 다양한 장면과 문장 유형에 대해 강건성을 확인하였다. 정성적 평가 실험에서는 다중 객체, 유사 외형 객체, 가려짐과 빠른 이동이 혼재하는 까다로운 상황에서도 참조 표현의 핵심 단어와 관계어를 반영한 정합 덕분에 잘못된 탐지를 줄이고, 추적의 안정성을 높이는 경향을 관찰하였다. 종합하면, 제안 모델 CDTD-RVOS는 교차-모달 인코딩·디코딩, 그리고 참조 표현의 언어적 분리를 효과적으로 수행함으로써 참조 비디오 객체 분할 작업의 핵심 난제들을 체계적으로 해결하였고, 본 논문에서는 다양한 실험들을 통해 이 모델의 우수한 성능과 일반화를 입증하였다.
      번역하기

      참조 비디오 객체 분할(RVOS)은 다수의 객체가 공존하는 비디오에서 사용자가 제시하는 자연어 참조 표현에 정확히 부합하는 단일 객체를 탐지·분할·추적해야 하는 고난도 작업으로, 비디�...

      참조 비디오 객체 분할(RVOS)은 다수의 객체가 공존하는 비디오에서 사용자가 제시하는 자연어 참조 표현에 정확히 부합하는 단일 객체를 탐지·분할·추적해야 하는 고난도 작업으로, 비디오 이해, 지능형 서비스 로봇, 증강현실 등 다양한 응용에서 핵심 역할을 한다. 참조 비디오 객체 분할은 정지 영상 기반의 참조 분할이나 일반 비디오 분할과 달리 시간에 따른 동작 변화, 객체 간 상호작용, 동적 공간관계까지 함께 고려해야 하므로 시각·언어 간 정합을 정교하게 달성하는 것이 관건이다. 본 논문은 이러한 난제를 해결하기 위해 교차-모달 객체 디코딩과 참조 표현 분리를 결합한 트랜스포머(Transformer) 기반의 CDTD-RVOS 모델을 제안한다. 제안 모델은 첫째, 픽셀·프레임·전체 비디오에 이르는 다계층 표현을 통해 객체 특화 시각 특징을 단계적으로 추출한다. 둘째, 참조 표현을 구성하는 단어를 기능적 구성요소로 분리해 핵심 객체, 속성, 관계어 등을 강조하는 텍스트 디커플링 인코딩을 적용하여 언어 표현의 구조적 정보를 풍부하게 보존한다. 셋째, 시각 특징과 언어 특징을 전 계층에서 교차 융합하는 객체 디코딩을 수행하여 모달 간 분포 차이를 줄이고, 프레임 연속성 속에서 일관된 마스크 예측을 가능하게 한다. 아울러 위치 정렬 손실과 의미 정렬 손실을 함께 도입해 참조 대상의 공간적 대응과 의미적 대응을 동시에 강화한다. 본 논문에서는 A2D-Sentences, Ref-YouTube-VOS, Ref-DAVIS 17 등의 세 가지 벤치마크 데이터집합을 이용해 광범위한 정량적, 정성적 평가 실험들을 진행하였다. 정량적 실험들에서는 최신 모델들과 비교해 영역 유사도와 윤곽 정확도 등의 지표에서 일관된 성능 향상을 보였으며, 다양한 장면과 문장 유형에 대해 강건성을 확인하였다. 정성적 평가 실험에서는 다중 객체, 유사 외형 객체, 가려짐과 빠른 이동이 혼재하는 까다로운 상황에서도 참조 표현의 핵심 단어와 관계어를 반영한 정합 덕분에 잘못된 탐지를 줄이고, 추적의 안정성을 높이는 경향을 관찰하였다. 종합하면, 제안 모델 CDTD-RVOS는 교차-모달 인코딩·디코딩, 그리고 참조 표현의 언어적 분리를 효과적으로 수행함으로써 참조 비디오 객체 분할 작업의 핵심 난제들을 체계적으로 해결하였고, 본 논문에서는 다양한 실험들을 통해 이 모델의 우수한 성능과 일반화를 입증하였다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Referring Video Object Segmentation (RVOS) seeks to detect, segment, and track the single object in a multi-object video that matches a natural-language expression, demanding precise vision-language alignment under temporal dynamics and interactions. We introduce CDTD-RVOS, a Transformer-based model that combines cross-modal object decoding with text decoupling. The model extracts object-focused visual cues at pixel, frame, and whole-video scales, while the referring expression is decomposed into the core entity, its attributes, and relations to other objects to preserve rich linguistic structure. Cross-modal fusion at every layer reduces modality gaps and enforces temporally consistent masks, and position and semantics alignment losses further strengthen spatial and semantic correspondence. Extensive experiments on A2D-Sentences, Ref-YouTube-VOS, and Ref-DAVIS17 show consistent gains over strong baselines in overlap and contour metrics, with qualitative robustness to look-alike distractors, occlusions, and fast motion. These results indicate that CDTD-RVOS effectively addresses core RVOS challenges while providing strong accuracy and generalization across benchmarks.
      번역하기

      Referring Video Object Segmentation (RVOS) seeks to detect, segment, and track the single object in a multi-object video that matches a natural-language expression, demanding precise vision-language alignment under temporal dynamics and interactions. ...

      Referring Video Object Segmentation (RVOS) seeks to detect, segment, and track the single object in a multi-object video that matches a natural-language expression, demanding precise vision-language alignment under temporal dynamics and interactions. We introduce CDTD-RVOS, a Transformer-based model that combines cross-modal object decoding with text decoupling. The model extracts object-focused visual cues at pixel, frame, and whole-video scales, while the referring expression is decomposed into the core entity, its attributes, and relations to other objects to preserve rich linguistic structure. Cross-modal fusion at every layer reduces modality gaps and enforces temporally consistent masks, and position and semantics alignment losses further strengthen spatial and semantic correspondence. Extensive experiments on A2D-Sentences, Ref-YouTube-VOS, and Ref-DAVIS17 show consistent gains over strong baselines in overlap and contour metrics, with qualitative robustness to look-alike distractors, occlusions, and fast motion. These results indicate that CDTD-RVOS effectively addresses core RVOS challenges while providing strong accuracy and generalization across benchmarks.

      더보기

      목차 (Table of Contents)

      • 제 1 장 서 론 1
      • 제 1 절 연구 배경 1
      • 제 2 절 연구 목표 5
      • 제 2 장 이론적 배경 6
      • 제 1 장 서 론 1
      • 제 1 절 연구 배경 1
      • 제 2 절 연구 목표 5
      • 제 2 장 이론적 배경 6
      • 제 1 절 시각 특징 인코딩-디코딩 6
      • 제 2 절 언어 특징 인코딩-디코딩 7
      • 제 3 절 시각-언어 특징 정렬 8
      • 제 4 절 시각-언어 특징 융합 9
      • 제 3 장 참조 비디오 객체 분할 모델 10
      • 제 1 절 모델 개요 10
      • 제 2 절 픽셀 수준의 교차 특징 인코딩 12
      • 제 3 절 프레임과 비디오 수준의 교차 객체 디코딩 14
      • 제 4 절 자연어 참조 표현의 분리 인코딩 17
      • 제 5 절 시각-언어 간 정렬 손실 19
      • 제 4 장 구현 및 실험 22
      • 제 1 절 모델 구현과 학습 22
      • 제 2 절 정량적 실험 23
      • 제 1 항 픽셀 수준의 특징 인코딩 방식 비교 23
      • 제 2 항 양방향 교차-모달 객체 디코딩 방식 비교 26
      • 제 3 항 참조 표현 인코딩 방식 비교 28
      • 제 4 항 정렬 손실 계산 방식 비교 30
      • 제 5 항 기존 모델들과의 성능 비교 32
      • 제 3 절 정성적 실험 35
      • 제 5 장 결 론 38
      • 참고문헌 39
      • Abstract 42
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼