http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
합성 데이터를 사용한 딥러닝 기반 다중모달 이미지 정합
한재웅(Jae-Woong Han),권경범(Kyung-Bum Kwon),정신영(Sin-Young Jung),이현재(Hyun-Jae Lee),구형일(Hyung-Il Koo) 한국정보통신학회 2024 한국정보통신학회논문지 Vol.28 No.1
현실 세계의 정보는 다양한 모달리티로 존재한다. 이를 통합하기 위해 컴퓨터 비전 및 딥러닝 분야에서 다중모달 이미지 정합 연구가 진행되어왔다. 그러나 SIFT, ORB 등 컴퓨터 비전 알고리즘은 EO와 IR의 도메인 차이로 인해 좋은 결과가 도출되지 않는 문제가 있다. 또 딥러닝 기반 특징점 추출 모델에서는 데이터 취득의 어려움으로 기존 연구가 매우 제한된 상황이다. 따라서 본 논문에서는 이러한 문제들을 해결하기 위해 IR 이미지와 유사한 합성 이미지를 EO 이미지로부터 생성하였고 이를 통해 딥러닝 기반 특징점 추출 모델인 R2D2에 다중모달리티를 학습하였다. 다양한 환경에서 EO와 IR 이미지 쌍을 취득하여 실험한 결과 다중모달에서 R2D2의 이미지 정합 성공률은 단일모달에서 ORB의 정합 성공률과 비교하여 4.6% 정도의 차이만 보여 정합이 성공적으로 이루어짐을 확인할 수 있었다. 이를 통해 합성 데이터를 활용하여 R2D2에 다중모달리티를 학습이 가능함을 확인하였다. Real-world information exists in various modalities. To integrate this, research on multi-modal image matching has been conducted in the field of computer vision and deep learning. However, computer vision algorithms like SIFT and ORB face challenges in producing good results due to domain differences between EO and IR images. There’s also a limitation in deep learning models due to data acquisition challenges. This paper addresses these issues by generating synthetic images resembling IR images from EO images and trained the deep learning-based feature point extraction model R2D2 in multi-modality. Experiments with EO and IR image pairs in various environments showed that the image matching success rate of R2D2 in multi-modal scenarios is only about 4.6% different compared to ORB in single modality, demonstrating successful matching. This confirms the potential of using synthetic data for multi-modal training in R2D2.