지난 몇 년간 컴퓨터 비전 기술의 비중은 영상이나 비디오가 무엇에 관한 것인지 자동으로 이해하는 문제를 해결하는 기술로 커져가고 있다. 이 문제는 몇 가지 이유에서 여전히 난해하다. ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T13689137
서울 : 中央大學校 尖端映像大學院, 2015
학위논문(박사) -- 중앙대학교 첨단영상대학원 , 영상학과 영상공학-디지털이미징 전공 , 2015. 2
2015
영어
서울
Object detection and tracking using spatial context and appearance models based on optimal observation likelihood estimation
ii, 132 p. : 삽화 ; 26 cm
지도교수: 백준기
참고문헌 수록
0
상세조회0
다운로드지난 몇 년간 컴퓨터 비전 기술의 비중은 영상이나 비디오가 무엇에 관한 것인지 자동으로 이해하는 문제를 해결하는 기술로 커져가고 있다. 이 문제는 몇 가지 이유에서 여전히 난해하다. ...
지난 몇 년간 컴퓨터 비전 기술의 비중은 영상이나 비디오가 무엇에 관한 것인지 자동으로 이해하는 문제를 해결하는 기술로 커져가고 있다. 이 문제는 몇 가지 이유에서 여전히 난해하다. 첫째, 하나는 각 프레임에 얼마나 많은 객체가 있고 그들이 어디에 존재하는지 추정 해야 한다. 객체 자체는 여전히 예측할 수 없는 상태로 있기 때문에 그 특성을 이해하는 것은 여전히 어렵다. 둘째, 각각의 객체가 무엇을 하고 있는지 설명해야 한다. 이 문제는 제대로 객체의 동작을 분류 하기 위한 카테고리로 알려진 자연적 또는 정식 데이터 집합이 존재하지 않기 때문에 더욱 더 대단히 난해하다.
영상 이해의 목적은 컴퓨터 비전 분야에서 공유된 목표였다. 하지만, 영상 정보로부터 필요한 장면 레벨 정보를 추출하는 것은 매우 도전적인 연구분야이다. 원시 영상 데이터가 숫자 행렬의 형태로 제공된다면, 우리가 수행해야 하는 추론의 추상화 역시 훨씬 높은 수준에서 발생한다. 영상에서 관심 영역의 기본요소(primitive)를 분리하는 (예를 들어 객체의 검출 또는 추적) 기술들의 무수한 진전들이 이루어지고 있다. 이러한 기본요소 사이의 상호 작용을 모델링 하는 것은 영상을 이해하는데 있어 매우 중요한 과정이다.
이 논문에서는 이 분야에 있어서 세 가지 중요한 도전적인 문제를 고려했다. 첫째, 객체 검출 및 영상 영역 레이블링 과정을 연구하고, 이러한 기본 요소간의 유형간의 의미 있는 상황적 관계(contextual relationship)를 구하기 위한 정교한 확률적 모델을 개발한다. 공간 상황 모델은 데이터에서 직접 공간 상황 단서를 학습한다. 두 번째, 새로운 압축적 지역 외관 모델(compressive local appearance model) 기반의 객체 추적 방법을 개발하였다. 이 방법은 객체 추적에 있어 어려운 문제를 해결하기 위해 소개한다. 객체의 영상 패치정보를 보존하고, 동시에 데이터 차원을 감소시키기 위해, 임의 투영(random projection) 기반의 특징선택(feature selection) 방법을 제시한다. 템플릿 집합을 통하여 생성된 드문 표현(sparse representation)을 사용한 객체 외관(appearance) 모델링은 L1-정규화 문제로 귀결된다. 이 문제를 해결하기 위해, 새로운 우도 함수를 이용하여, 장기간 겹침 객체 추적에 중요한 역할을 하는 재구성 오류와 에러 행렬을 동시에 고려한다. 정교한 객체 우도 점수 추정과 특징 행렬의 낮은 계수(low-rank) 표현을 기반으로 멀티 태스크 특징 학습 과정으로 객체의 검출기반 추적 문제를 해결한다. 초기 부분 기저 공간을 얻기 위해 다수의 프레임 내에서 낮은 계수 표현과 특징을 선택한다. 다음으로, 낮은 계수와 스파스 속성으로 표현되는 특징은 새로운 결합 희소성 기반 멀티 태스크 특징을 학습 프레임 워크를 사용하여 학습하게 된다. 이러한 특징들과 성긴 에러는 새로운 증분 교번 방향(incremental alternating direction) 방법을 사용하여 최적하게 갱신된다. 멀티 태스크 특징을 학습하기 위한 낮은 계수 최소화 문제는 효율적인 닫힌 형태 업데이트 프로세스의 약간의 시퀀스에 의해 달성 될 수 있다. 실험 결과 제안된 방법은 도전적인 이미지 시퀀스에서 개체를 추적하는 기존의 최첨단 추적 방법보다 성능이 뛰어남을 보여 준다.
다국어 초록 (Multilingual Abstract)
An important computer vision problem is to automatically understand what the scenes are about in a sequence of video or an image. This problem is difficult for several reasons. Firstly, one needs to determine how many object are in each frame and esti...
An important computer vision problem is to automatically understand what the scenes are about in a sequence of video or an image. This problem is difficult for several reasons. Firstly, one needs to determine how many object are in each frame and estimate where they are doing. But finding objects and understanding their properties is hard because object itself still remains unpredictable. Secondly, one must describe what each object is doing; this problem is poorly understood, not least because there is no known natural or canonical set of categories into which to classify activities.
The goal of image understanding has long been a shared goal in the field of computer vision. Extracting the required scene-level information from image data is a formidable task, however. While the raw data comes in the form of matrices of numbers, the inferences that we must perform occur at a much higher level of abstraction. Much progress has been made in recent years in extracting the primitives of an image in isolation, for example detecting the objects, and tracking the object. Modeling the interactions between these primitives is an important step along the path to understanding scenes.
In this thesis, I consider three important challenging issues in this space. In the first, I consider the tasks of object detection and region labeling and develop a more sophisticated probabilistic model aimed at capturing the contextual relationships between these types of primitives in a more targeted and meaningful way. My spatial context model learns to leverage contextual cues directly from data. In the second, I develop the object tracking task using a novel compressive local appearance model-based method. It is presented to address challenging issues in object tracking. To efficiently preserve image patches of an object and reduce the dimensionality, I introduce a random projection-based feature selection method. Modeling the object appearance using a sparse representation over a set of templates leads to an L1-regularization problem. To solve this problem, I consider both the reconstruction error and the residual matrix which play a key role in tracking a long-term occluded object using the modified likelihood function. Lastly, I address object tracking-by-detection problem as multitask feature learning process based on low-rank representation of features with refined object likelihood score estimation. I first select features with low-rank representation within a number of initial frames to obtain subspace basis. Next, the features represented by the low-rank and sparse property are learned using a modified joint sparsity-based multitask feature learning framework. Both the features and sparse errors are then optimally updated using a novel incremental alternating direction method. The low-rank minimization problem for learning multitask features can be achieved by a few sequences of efficient closed form update process. Experimental results demonstrate that the proposed method outperforms existing state-of-the-art tracking methods for tracking objects in challenging image sequences.
목차 (Table of Contents)