대화형 얼굴 생성(Talking Face Generation) 기술은 음성, 영상, 텍스트 등의 다중 모달 입력으로부터 인물의 입모양, 표정, 제스처를 자연스럽게 합성하는 인공지능 기반 생성 기술로, 디지털 휴먼 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17415924
부산 : 신라대학교 일반대학원, 2026
학위논문(석사) -- 신라대학교 일반대학원 , 융합공학과 컴퓨터정보공학전공 , 2026. 2
2026
영어
부산
vi, 84장 ; 26 cm
지도교수: 김병기
I804:21020-200000974011
0
상세조회0
다운로드대화형 얼굴 생성(Talking Face Generation) 기술은 음성, 영상, 텍스트 등의 다중 모달 입력으로부터 인물의 입모양, 표정, 제스처를 자연스럽게 합성하는 인공지능 기반 생성 기술로, 디지털 휴먼 ...
대화형 얼굴 생성(Talking Face Generation) 기술은 음성, 영상, 텍스트 등의 다중 모달 입력으로부터 인물의 입모양, 표정, 제스처를 자연스럽게 합성하는 인공지능 기반 생성 기술로, 디지털 휴먼 연구의 핵심 분야로 부상하고 있다. 본 논문은 해당 기술의 연구 동향을 체계적으로 분석하고, 최근 등장한 대표적 생성 패러다임과 모델을 종합적으로 고찰하였다.
특히 2D 이미지 기반의 Wav2Lip, 3D 기하 기반의 AD-NeRF, 가우시안 표현 기반의 LAM(Large Avatar Model), 통합 확산 모델 기반의 EchoMimic V3, 제스처 확장형 모델 EMO2 등을 중심으로, 각 접근법의 합성 경로, 구조적 특징, 성능 지표를 비교·분석하였다. 또한 VFHQ, HDTF, MOSEI, AVSpeech 등 주요 데이터셋과 평가 지표를 정리하여, 기술적 발전 흐름과 한계점을 함께 제시하였다.
분석 결과, 최근 연구는 효율적 3D 표현·다중모달 통합·전신 협동 생성 방향으로 발전하고 있으며, 실시간 상호작용 및 감정 일관성, 다언어 일반화, 윤리적 거버넌스 등 다양한 연구 과제가 남아 있음을 확인하였다. 본 연구는 디지털 휴먼 기술의 현황과 향후 발전 방향을 종합적으로 제시함으로써, 관련 학문 및 산업 분야에서의 응용 확대에 기여하고자 한다.
다국어 초록 (Multilingual Abstract)
Talking Face Generation is an artificial intelligence–based generative technology that synthesizes natural lip movements, facial expressions, and gestures of human characters from multimodal inputs such as speech, images, and text, and has emerged a...
Talking Face Generation is an artificial intelligence–based generative technology that synthesizes natural lip movements, facial expressions, and gestures of human characters from multimodal inputs such as speech, images, and text, and has emerged as a core research area in digital human studies. This paper systematically analyzes recent research trends in TFG and provides a comprehensive review of representative generative paradigms and models.
In particular, we examine and compare approaches including the 2D image–based Wav2Lip, the 3D geometry–based AD-NeRF, the Gaussian representation–based Large Avatar Model, the unified diffusion model–based EchoMimic V3, and the gesture-augmented model EMO2, focusing on their synthesis pipelines, architectural characteristics, and performance metrics. Major datasets and evaluation benchmarks, such as VFHQ, HDTF, MOSEI, and AVSpeech, are also summarized to highlight both the technological progress and the remaining limitations.
Our analysis indicates that recent advances are converging toward efficient 3D representations, multimodal integration, and full-body coordinated generation. At the same time, several open challenges remain, including real-time interactive generation, emotional consistency, multilingual generalization, and ethical governance. By presenting a comprehensive overview of the current landscape and future directions of digital human technologies, this study aims to facilitate broader applications in both academic research and industrial practice
목차 (Table of Contents)