RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      IDTrack : 시각적 객체 추적을 위한 디코더에서의 독립적인 시퀀스 예측

      한글로보기

      https://www.riss.kr/link?id=T17079234

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Visual Object Tracking (VOT) is a crucial task in fields such as robotics, autonomous driving, and surveillance cameras, aiming to estimate the position of a given object in subsequent frames when its position is provided in the initial frame of a video. Object tracking faces several challenges, including scale variation, distraction, object deformation, and occlusion. To address these challenges, various models for improved image feature learning have been proposed. In this paper, we propose a novel model that incorporates the past coordinates of a search image to jointly learn both image features and coordinate features. The proposed model utilizes the Vision Transformer (ViT) architecture as its encoder. Depending on the format of the coordinate input, the decoder can be configured into three models: IDTrack, SDTrack, and Baseline. Comparative experiments show that the IDTrack model outperforms the others, followed by SDTrack and Baseline models. An ablation study on the IDTrack model reveals that the optimal configuration includes four positional embeddings for the decoder, a prediction format of x1y1x2y2, three past coordinates, the application of Random Horizontal Flip, and a learning rate decay at epoch 50. Compared to the Baseline model, IDTrack achieves a 5.88% improvement in AO (average overlap) and a 6.70% improvement in SR (success rate).
      Thus, the proposed model leverages the temporal features of past frame coordinates and the spatial features of images to implement relational modeling, presenting a new framework that achieves performance comparable to state-of-the-art (SOTA) models.
      번역하기

      Visual Object Tracking (VOT) is a crucial task in fields such as robotics, autonomous driving, and surveillance cameras, aiming to estimate the position of a given object in subsequent frames when its position is provided in the initial frame of a vid...

      Visual Object Tracking (VOT) is a crucial task in fields such as robotics, autonomous driving, and surveillance cameras, aiming to estimate the position of a given object in subsequent frames when its position is provided in the initial frame of a video. Object tracking faces several challenges, including scale variation, distraction, object deformation, and occlusion. To address these challenges, various models for improved image feature learning have been proposed. In this paper, we propose a novel model that incorporates the past coordinates of a search image to jointly learn both image features and coordinate features. The proposed model utilizes the Vision Transformer (ViT) architecture as its encoder. Depending on the format of the coordinate input, the decoder can be configured into three models: IDTrack, SDTrack, and Baseline. Comparative experiments show that the IDTrack model outperforms the others, followed by SDTrack and Baseline models. An ablation study on the IDTrack model reveals that the optimal configuration includes four positional embeddings for the decoder, a prediction format of x1y1x2y2, three past coordinates, the application of Random Horizontal Flip, and a learning rate decay at epoch 50. Compared to the Baseline model, IDTrack achieves a 5.88% improvement in AO (average overlap) and a 6.70% improvement in SR (success rate).
      Thus, the proposed model leverages the temporal features of past frame coordinates and the spatial features of images to implement relational modeling, presenting a new framework that achieves performance comparable to state-of-the-art (SOTA) models.

      더보기

      국문 초록 (Abstract) kakao i 다국어 번역

      Visual Object Tracking (VOT)는 로봇, 자율주행자동차, 감시 카메라와 같은 분야에서 연구되는 중요한 과제로, 비디오의 초기 프레임에서 위치가 주어졌을 때 이후 프레임들에서 해당 객체의 위치를 추정하는 것을 목표로 한다. 객체 추적에는 scale variation, distraction, object deformation, occlustion과 같은 여러 어려움이 존재하며, 이를 해결하기 위해 더 나은 이미지 특징 학습을 위한 여러 모델들이 제안되었다. 본 논문에서는 이미지 특징 뿐만 아니라 좌표 특징을 공동으로 학습하기 위해 search image의 과거 좌표를 도입하는 새로운 모델을 제안한다. 제안하는 모델의 인코더로는 ViT(Vision Transformer) 구조를 사용하였으며, 디코더로는 좌표 입력 형태에 따라 총 3가지 모델(IDTrack, SDTrack, Baseline)을 구성할 수 있다. 비교 실험 결과 IDTrack 모델이 가장 높은 성능을 보였으며, 그 뒤를 SDTrack, Baseline 모델이 이었다. 또한 IDTrack 모델에 대한 절제 연구를 통해 디코더의 positional embedding의 개수는 4개, prediction format은 x1y1x2y2, 과거 좌표의 개수는 3개, Random Horizontal Flip 적용 및 learning rate decay는 epoch 50에 대해 가장 좋은 성능을 보였으며, Baseline 모델의 성능 대비 AO 기준 5.88% 향상, SR 기준 6.70%가 향상되었다. 이로써 본 논문의 모델은 과거 프레임들의 좌표 정보에 대한 시간적 특징과 이미지의 공간적 특징을 활용하여 관계 모델링을 구현함으로써 새로운 프레임워크 방법을 제안하였으며, SOTA(State-of-the-Art) 모델들과 비교할 만한 성능을 달성하였다.
      번역하기

      Visual Object Tracking (VOT)는 로봇, 자율주행자동차, 감시 카메라와 같은 분야에서 연구되는 중요한 과제로, 비디오의 초기 프레임에서 위치가 주어졌을 때 이후 프레임들에서 해당 객체의 위치...

      Visual Object Tracking (VOT)는 로봇, 자율주행자동차, 감시 카메라와 같은 분야에서 연구되는 중요한 과제로, 비디오의 초기 프레임에서 위치가 주어졌을 때 이후 프레임들에서 해당 객체의 위치를 추정하는 것을 목표로 한다. 객체 추적에는 scale variation, distraction, object deformation, occlustion과 같은 여러 어려움이 존재하며, 이를 해결하기 위해 더 나은 이미지 특징 학습을 위한 여러 모델들이 제안되었다. 본 논문에서는 이미지 특징 뿐만 아니라 좌표 특징을 공동으로 학습하기 위해 search image의 과거 좌표를 도입하는 새로운 모델을 제안한다. 제안하는 모델의 인코더로는 ViT(Vision Transformer) 구조를 사용하였으며, 디코더로는 좌표 입력 형태에 따라 총 3가지 모델(IDTrack, SDTrack, Baseline)을 구성할 수 있다. 비교 실험 결과 IDTrack 모델이 가장 높은 성능을 보였으며, 그 뒤를 SDTrack, Baseline 모델이 이었다. 또한 IDTrack 모델에 대한 절제 연구를 통해 디코더의 positional embedding의 개수는 4개, prediction format은 x1y1x2y2, 과거 좌표의 개수는 3개, Random Horizontal Flip 적용 및 learning rate decay는 epoch 50에 대해 가장 좋은 성능을 보였으며, Baseline 모델의 성능 대비 AO 기준 5.88% 향상, SR 기준 6.70%가 향상되었다. 이로써 본 논문의 모델은 과거 프레임들의 좌표 정보에 대한 시간적 특징과 이미지의 공간적 특징을 활용하여 관계 모델링을 구현함으로써 새로운 프레임워크 방법을 제안하였으며, SOTA(State-of-the-Art) 모델들과 비교할 만한 성능을 달성하였다.

      더보기

      목차 (Table of Contents)

      • 제1장 서론 1
      • 제2장 선행연구 5
      • 2.1. 시각적 객체 추적 5
      • 2.2. 추적 과정의 패러다임 6
      • 2.2.1 Two-stream two-stage with light relation modeling 6
      • 제1장 서론 1
      • 제2장 선행연구 5
      • 2.1. 시각적 객체 추적 5
      • 2.2. 추적 과정의 패러다임 6
      • 2.2.1 Two-stream two-stage with light relation modeling 6
      • 2.2.2 Two-stream two-stage with heavy relation modeling 7
      • 2.2.3 One-stream one-stage modeling 8
      • 2.2.4 Prediction head modeling 9
      • 2.3. 시각적 추적을 위한 트랜스포머 11
      • 2.3.1 Vision Transformer 11
      • 2.3.2 Transformer for tracking and related trackers 13
      • 2.4. 시각적 추적을 위한 시퀀스 학습 14
      • 2.4.1 Language modeling for sequence learning in vision 14
      • 2.4.2 Sequence learning for tracking and related trackers 15
      • 제3장 제안모델 17
      • 3.1. Image Representation 17
      • 3.2. Coordinate Representation 18
      • 3.3. Model Architecture 22
      • 3.3.1 Encoder 23
      • 3.3.2 Decoder 24
      • 3.4. Training and Inference 27
      • 제4장 실험 30
      • 4.1. 데이터 설명 및 평가 지표 30
      • 4.1.1 데이터 설명 30
      • 4.1.2 평가 지표 30
      • 4.2. 구현 세부사항 32
      • 4.2.1 모델 및 하이퍼파라미터 32
      • 4.2.2 이미지와 좌표 전처리 및 증강기법 32
      • 4.3. 실험 결과 34
      • 4.4. 절제 연구 35
      • 제5장 결론 및 향후 연구 41
      • 5.1. 결론 41
      • 5.2. 향후 연구 42
      • 참고문헌 43
      • 국문초록 47
      • Abstract 48
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼