MMPose 프레임워크의 비실사 이미지 포즈 추정을 위한 Unity 활용 학습 데이터 합성 및 성능평가 연구 가천대학교 일반대학원 게임영상공학과 게임공학전공 오 영 욱 지도교수 김 정 윤 본 연구...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17174938
성남 : 가천대학교 글로벌캠퍼스 일반대학원, 2025
학위논문(박사) -- 가천대학교 글로벌캠퍼스 일반대학원 , 게임영상공학과 게임영상학과 , 2025. 2
2025
한국어
인체 포즈 추정 ; 심층 신경망 학습 ; 학습 데이터셋 합성 ; 게임엔진 ; 2D 게임 그래픽
경기도
95 ; 26 cm
지도교수: 김정윤
I804:41005-200000846268
0
상세조회0
다운로드국문 초록 (Abstract)
MMPose 프레임워크의 비실사 이미지 포즈 추정을 위한 Unity 활용 학습 데이터 합성 및 성능평가 연구 가천대학교 일반대학원 게임영상공학과 게임공학전공 오 영 욱 지도교수 김 정 윤 본 연구...
MMPose 프레임워크의 비실사 이미지 포즈 추정을 위한 Unity 활용 학습 데이터 합성 및 성능평가 연구 가천대학교 일반대학원 게임영상공학과 게임공학전공 오 영 욱 지도교수 김 정 윤 본 연구는 게임엔진을 활용한 포즈 추정용 비실사 이미지 데이터의 합성 방법을 제안하고, 그 실효성을 검증하는 것을 목적으로 한다. 심층신경망 학습 기반의 컴퓨터 비전 기술 발전으로 인체 포즈 추정 기술의 성능이 크게 향상되었으나 실사 이미지 데이터셋으로 학습된 모델들이 2D 게임 스프라이트와 같은 비실사 도메인에서는 성능 제약을 보였다. 이를 해결하 기 위해 본 연구는 Unity 게임엔진을 이용하여 비실사 이미지 포즈 추정 을 위한 학습 데이터셋을 합성하고 이를 이용하여 모델을 학습하였으며 포즈 추정에 대한 성능 차이를 분석하였다. 연구 방법론으로 먼저 Unity의 휴머노이드 아바타 시스템에서 추출한 정 확한 관절 정보를 포함하는 다양한 2D 스프라이트 데이터셋을 자동으로 합성하였다. 이를 위해 게임엔진의 쉐이더 시스템을 활용하여 3D 모델을 2D 스프라이트 스타일로 변환하고, 동시에 정확한 관절 위치 정보를 자동 으로 추출한 후, 학습을 위해 데이터를 통합하는 파이프라인을 작성하였 다. 이렇게 합성한 데이터셋으로 MMPose 프레임워크에서 HRNet과 ResNet 모델을 학습하였다. 학습한 모델의 파라미터는 생성 데이터셋의 검증용 데이터로 평가하였다. 파라미터로부터 평균 정확도와 평균 재현율을 측정하였으며, 각 관절포인 트별 평균 오차거리를 구하여 각 모델의 파라미터별로 비교하였다. 또한 수치뿐만 아니라 검증용 데이터의 이미지 일부의 포즈 추정 값을 시각화 하고, 일반 게임에서 사용되는 스프라이트 역시 파라미터별로 포즈 추정을 하여 결과값을 시각화 하여 비교하였다. 평가한 결과, 포즈 추정에는 HRNet이 ResNet보다 우수하였으며, 기존 실제 사진 데이터셋으로 학습된 모델의 파라미터와 비교하여 2D 게임 스프라이트에서 포즈 추정도가 향상 되었음을 확인하였다. 본 연구는 사진에서 찾기 힘든 과장되고 양식화된 포즈들에 대해 실사기 반으로 학습된 모델의 파라미터가 가지고 있는 한계를 합성 데이터셋을 통해 극복할 수 있음을 확인하였다. 게임엔진을 통해 학습 데이터셋을 합 성하는 방법은 다양한 캐릭터 스타일과 애니메이션에서도 활용할 수 있다. 게임엔진을 통해 학습 데이터셋을 합성함으로써 비실사 이미지의 포즈 추 정 정확도의 향상뿐만 아니라 수작업이 필요한 주석 작성에 대한 의존도 를 크게 줄일 수 있었다. 데이터 합성 과정의 자동화를 통해 대규모 학습 데이터셋의 효율적인 구축은 향후 비실사 도메인에서의 포즈 추정 연구 방법뿐만 아니라 향후 게임, 애니메이션, 만화, 메타버스등 개성이 강한 분 야에서 활용할 수 있는 모델의 학습에도 이용할 수 있을 것으로 기대한다.
다국어 초록 (Multilingual Abstract)
This study proposes a novel method for synthesizing non-photorealistic image data for pose estimation using game engines and evaluates its effectiveness. While advances in computer vision technology powered by deep neural networks have significantly e...
This study proposes a novel method for synthesizing non-photorealistic image data for pose estimation using game engines and evaluates its effectiveness. While advances in computer vision technology powered by deep neural networks have significantly enhanced human pose estimation, models trained on realistic image datasets often struggle in non-photorealistic domains such as 2D game sprites. To address this issue, this study utilizes the Unity game engine to synthesize a training dataset tailored for non-photorealistic image pose estimation. The synthesized data was employed to train models, and their performance was analyzed comprehensively.
The methodology involves automatically generating a diverse dataset of 2D sprites with accurate joint information extracted from Unity's humanoid avatar system. A specialized pipeline was developed to convert 3D models into 2D sprite styles using the game engine's shader system, extract precise joint position data, and integrate this information for model training. The dataset was used to train HRNet and ResNet models within the MMPose framework.
The trained models were evaluated on validation data derived from the synthesized dataset. Key metrics including average accuracy, recall, and joint-specific error distances were calculated and compared. Additionally, qualitative analyses were conducted by visualizing pose estimation results on both validation data and 2D game sprites. The findings reveal that HRNet outperforms ResNet in pose recognition and demonstrates enhanced accuracy for 2D game sprites compared to models trained on real-world photographic datasets.
This study highlights the potential of synthetic datasets to address the challenges posed by exaggerated and stylized poses that are rarely encountered in photographic data. The proposed methodology in this study for dataset synthesis by using Unity game engine is adaptable to various character styles and animations while offering a scalable solution for diverse applications. By utilizing game engines for data synthesis, this approach expects to reduce reliance on manual annotation and facilitate the efficient creation of large-scale training datasets.
The findings of this study are expected to contribute to advancements in pose estimation within non-photorealistic domains, as well as in creative fields such as gaming, animation, comics, and the virtual space.
목차 (Table of Contents)