최근 로봇 내비게이션, 자율주행, 증강현실 분야에서는 단일 이미지를 이용 한 3-dimensional(3D, 차원) 재구성 연구가 활발히 진행되고 있다. 딥러닝 기술의 발전으로 단안 깊이 예측 연구가 활...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
최근 로봇 내비게이션, 자율주행, 증강현실 분야에서는 단일 이미지를 이용 한 3-dimensional(3D, 차원) 재구성 연구가 활발히 진행되고 있다. 딥러닝 기술의 발전으로 단안 깊이 예측 연구가 활...
최근 로봇 내비게이션, 자율주행, 증강현실 분야에서는 단일 이미지를 이용 한 3-dimensional(3D, 차원) 재구성 연구가 활발히 진행되고 있다. 딥러닝 기술의 발전으로 단안 깊이 예측 연구가 활발해지고 있으며, 이를 활용한 단일 이미지 기반의 3D 재구성 연구들도 많이 진행되고 있다. 기존의 연구에서는 딥러닝 네트 워크를 사용하여 고해상도의 3차원 데이터로 학습하거나, 3차원 세그멘테이션을 함께 학습하여 폐색 영역을 생성하려고 노력했지만 가려진 물체를 완벽하게 복 원하는 것은 어렵다. 이 방식으로 생성된 메시와 증강현실에서 그래픽 물체 간 상호작용이 자연스럽지 않은 연출이 될 수 있다. 첫째, 폐색 영역이 복원된 마스크 (Amodal Mask) 를 이용해 가려진 영역의 깊이를 예측하는 방법을 제안한다. 깊이 예측 네트워크의 입력으로 영상에서 다른 오브젝트를 가리고 있는 영역을 마스크 로 지우고, 가려진 물체의 마스크를 복원한 마스크를 이용해 폐색 영역의 깊이를 예측한다. 둘째, 3차원 예측의 입력을 위한 반복적인 깊이 예측 방법을 제안한다. 이 방법은 다수의 물체 간의 폐색 영역에 대한 깊이를 예측 하기 위해 사용한다. 이를 3차원 네트워크의 입력으로 주어 3차원 재구성에 도움이 될 수 있다. 셋째, SPADE 블록을 활용하여 인코더의 토큰과 마스크를 융합하여 디코더에 입력으로 전달함으로써 Amodal Mask의 특징과 이미지 특징을 효과적으로 결합하여 폐색 영역의 깊이 정보를 예측할 수 있다. 제안한 방법으로 폐색 영역의 깊이를 예측한 결과 Depth Inpainting 네트워크와 비교해 더 정확하게 예측할 수 있었고, 이를 이용한 3차원 재구성에서 해당 영역을 효과적으로 재구성할 수 있음을 확인했다.
다국어 초록 (Multilingual Abstract)
Recently, 3D reconstruction research using a single image has been actively conducted in the fields of robot navigation, autonomous driving, and augmented reality. With the development of deep learning technology, monocular depth prediction research i...
Recently, 3D reconstruction research using a single image has been actively conducted in the fields of robot navigation, autonomous driving, and augmented reality. With the development of deep learning technology, monocular depth prediction research is becoming active, and many studies on single image-based 3D reconstruction using it are also being conducted.Existing studies have tried to create occlusion areas by using deep learning networks to learn with highresolution 3D data, or by learning 3D segmentation together, but it is difficult to fully restore obscured objects. In the Mesh generated in this way and the augmented reality, the interaction between the graphic object may be a non-natural direction.First, we propose a method of predicting the depth of the covered area using Amodal Mask, a mask in which the occluded area has been restored. With the input of the depth prediction network, the area that covers other objects in the image is erased with a mask, and the depth of the occluded area is predicted using the mask that restored the mask of the hidden object.Second, we propose an iterative depth prediction method for input of three-dimensional predictions. This method is used to predict the depth of the occlusion area between multiple objects. This can be given as an input to a three-dimensional network to help with three-dimensional reconstruction.Third, the depth information of the occlusion area can be predicted by effectively combining the features of the Amodal Mask and image features by fusing the encoder’s tokens and masks to the decoder using the SPADE block.Prediction of the depth of the occlusion region in the proposed method confirmed that it could be predicted more accurately compared to the Depth Inpainting network, and that the region could be effectively reconstructed in three-dimensional reconstruction using it.
목차 (Table of Contents)