RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 차량 시뮬레이터 활용 운전자 감정에 따른 주행 데이터 분석 및 감정 그룹 제안 연구

        이명규 국민대학교 자동차공학전문대학원 2022 국내석사

        RANK : 2890

        운전자의 감정이 운전자의 운전 능력에 영향을 미친다는 발표들이 지속적으로 보고되고 있다. 운전자의 감정을 예측하여, 운전 능력을 향상시킬 수 있도록 적절한 서비스를 제공해준다면, 도로 안전은 물론 운전자의 만족도 또한 향상될 것이다. 본 연구는 운전자의 감정에 따라 차량 조작, 생체, 설문조사 데이터에서 어떤 차이를 보이는지 확인하고자 진행되었다. 14명의 실험참가자를 모집하여, 감정을 유도하였고, 차량 시뮬레이터 주행을 요청하였다. 유도하고자 하는 감정으로 행복, 놀람, 두려움, 화남, 슬픔, 지루함, 안도, 중립 여덟 가지를 선정하였다. 여덟 가지 감정을 감정의 각성도와 유인성을 고려하여 Russell의 circumplex model에 배치하였고, 감정을 분류하였다. 감정 유도는 영상 시청, 자기 경험 기술, 차량 시나리오 주행을 통해 진행되었으며, 차량 주행 5분간 실험참가자의 차량 조작, 생체 데이터가, 차량 주행 후 설문조사 데이터가 취득되었다. Human-in-the-loop 실험을 통해, 실험참가자 1명당 하루에 2개의 감정씩 4회, 14명 실험참가자에 대하여 총 56회의 본 실험을 진행하였다. 그 결과, 8개 각각 감정에 따른 차량 조작 데이터, 생체 데이터, 설문조사 데이터를 정상적으로 취득하였다. 결론적으로 14명의 실험참가자를 대상으로 유도하려는 감정을 의도한대로 유도하였고, 각 감정에 따른 데이터를 확보하였다. 통계분석을 통해 감정에 따라 유의한 데이터를 확인할 수 있었고, 유의한 데이터를 바탕으로 8개의 감정을 3개의 그룹으로 분류할 수 있었다. 본 연구 결과는 감정 예측에 대한 기초 연구, 차량 UX design을 위한 파라미터 등으로 활용될 것으로 기대된다. It has been continuously reported that the driver’s emotions affect the driver’s driving ability. If appropriate services are provided to improve driving ability by predicting the driver's emotions in advance, road safety and driver satisfaction will increase. This study was conducted to identify the differences in vehicle control data, physiological data, and survey data according to the driver's emotions. Fourteen experimental participants were recruited and eight emotions were induced. Happiness, surprise, fear, angry, depressed, bored, relieved, and neutral were selected as emotions to induce. Eight emotions were placed in Russell's Circumplex model in consideration of the arousal and valence of emotions, and emotions were classified. Emotional induction was conducted through video watching, writing passage, and scenario driving. As a result, vehicle control data, physiological data, and survey data were obtained after driving for 5 minutes. Through the human-in-the-loop experiment, eight emotions were induced successfully, and vehicle control data, physiological data, and survey data were acquired according to emotions. In conclusion, we were able to accurately induce the emotions, and it was possible to secure data according to each corresponding emotion. Significant data could be confirmed according to emotions, and 8 emotions could be classified into 3 groups based on the significant data. The results of this study can be used as a basic study on emotion prediction and parameters for vehicle UX design.

      • AvaNet and EvaNet for efficient integration of text, speech, and emotion in 3D avatar creation : towards seamless human-computer interaction

        엄세연 Graduate School, Yonsei University 2024 국내박사

        RANK : 2890

        Creating a 3D avatar using neural networks is a crucial element of human-computer interaction. The objective of 3D facial animation is to generate a 3D avatar with high lip synchronization to audio derived separately from text (text-driven) or speech (speech-driven) inputs. In this dissertation, two different types of models are proposed: a text-driven 3D facial animation model and a speech-driven emotional 3D facial animation model. One disadvantage of speech-driven 3D facial animation models is that the content cannot be changed without re-recording. To address this issue, the models inevitably require a text-to-speech (TTS) system to synthesize speech from the content. However, this conventional pipeline, which utilizes a TTS system and an automatic speech recognition (ASR) model to extract context-related information from the speech, is characterized by significant computational costs and a large number of trainable parameters To address these challenges, this dissertation proposes a novel model named AvaNet, which efficiently combines different domains, namely text, speech, and 3D avatar. AvaNet leverages text embedding encoded by the text encoder of the TTS model as intermediate features to generate both speech and the vertex of the 3D mesh. Using the TTS model’s capability to handle context and prosody elements (intonation, speaking speed, etc.), the proposed model facilitates the adjustment of 3D facial animation in sync with the synthesized speech. Consequently, AvaNet achieves a reduction in model size while demonstrating outstanding performance in terms of quantitative experiments and ABX test comparisons. While leveraging a TTS model offers advantages, it necessitates training on large text-speech pair datasets. Furthermore, in the creation of avatars expressing emotions—an essential aspect of human interaction—there is a shortage of emotional speech-text pairs in published datasets. Therefore, the dissertation introduces a speech-driven emotional 3D facial animation model called EvaNet. EvaNet effectively expresses emotions using a limited emotional audio-visual dataset. The model categorizes emotions into four types (angry, happy, sadness, and neutral) and utilizes style embedding extracted from a randomly selected reference avatar belonging to the target emotion. This allows the avatar to vividly convey the intensity of various emotions from both seen and unseen speakers by adjusting the style embedding. Additionally, a non-autoregressive model comprising gated activation units (GAUs) and bidirectional long short-term memory (BLSTM) modules is designed to enhance inference speed. Quantitative and qualitative experiments validate the proposed model’s superior performance from an objective standpoint. User study evaluations, including mean opinion score (MOS) tests on overall quality and emotion manipulation of the generated avatar, yield results consistent with the model’s effectiveness. 신경망을 사용하여 3D 아바타를 생성하는 것은 인간-컴퓨터 상호작용의 중요한 요소이다. 텍스트 및 음성 기반 3D 얼굴 애니메이션 모델의 목표는 텍스트 및 음성 입력에서 오디오와 입 모양이 동기화된3D아바타를 생성하는 것이다. 이는 일반적으로 텍스트를 음성으로 변환하는 (TTS) 시스템과 음성을 텍스트로 변환하는 (ASR) 모델을 사용하여 음성에서 관련 정보를 추출하는 것을 포함한다. 그러나 이러한 기존의 파이프라인은 상당한 계산 비용과 많은 양의 학습 매개변수를 요구한다. 이러한 문제에 대응하기 위해 본 학위 논문은 AvaNet 이라는 혁신적인 모델을 제안한다. AvaNet은 텍스트, 음성 및 3D 아바타와 같은 다른 도메인들을 효율적으로 결합한다. AvaNet은 TTS 모델의 텍스트 인코더에 의해 인코딩된 텍스트 임베딩을 중간 특징으로 활용하여 음성과 3D 메시의 정점을 함께 생성한다. TTS 모델의 컨텍스트 및 억양 요소를 처리할 수 있는 능력을 활용하여 제안된 모델은 음성과 3D아바타의 말하기 속도 등의 요소를 조절할 수 있다. 결과적으로 AvaNet은 기존 최첨단 모델에 비해 크기는 줄어든 반면에, 객관적 실험 및 ABX 테스트에서 우수한 성능을 보여준다. TTS 모델을 활용하는 것은 장점을 제공하지만, 대규모 텍스트-음성 쌍 데이터셋을 이용하여 모델을 학습시켜야 한다. 하지만, 인간 상호작용의 중요한 측면인 감정을 표현하는 아바타를 만들 때, 출판된 데이터셋에는 모델의 학습에 필요한 감정적인 음성-텍스트 쌍이 부족하다. 이를 해결하기 위해 본 학위 논문은 EvaNet 이라는 음성기반 감정 3D 얼굴 애니메이션 모델을 소개한다. EvaNet은 한정된 감정적 오디오-시각 데이터셋을 사용하여 효과적으로 감정을 표현한다. 이 모델은 감정을 분류하여 네 가지 유형(분노, 행복, 슬픔, 중립)으로 사용하며, 대상 감정에 속하는 참조 아바타에서 추출한 스타일 임베딩을 활용한다. 이를 통해 아바타는 스타일 임베딩을 조정함으로써 다양한 세기의 감정을 생생하게 전달할 수 있다. 또한, GAU와 BLSTM모듈로 구성된 비자기회귀 모델을 설계하여 추론 속도를 향상시키며, 주관적 및 객관적 실험에서 제안된 모델의 우수한 성능이 입증되었다. 사용자 연구 평가, 즉 생성된 아바타의 전반적인 품질과 감정 제어에 대한 평균 의견 점수(MOS) 테스트는 모델의 효과를 일관되게 나타낸다.

      • (A) study on the interaction provided by companion driving bot that helps the anger regulation of drivers

        이지인 Graduate School, Yonsei University 2017 국내석사

        RANK : 2639

        주행 중 도로에서 벌어지는 분노 표출에 따른 난폭 및 보복운전을 뜻하는 로드레이지(Road rage)가 큰 사회적 문제로 거론되고 있다. 다른 도메인에 비해 주행 환경은 외부 요인으로 인해 운전자의 분노를 유발하는 빈도와 상황이 자주 발생함에도 불구하고 주행 맥락에서 운전자 관점에서 분노를 조절(Anger regulation)하는 방안에 대한 연구는 소극적으로 진행되어 왔다. 이와 같이 분노와 공격적인 감정 상태는 운전자의 행동에 직접적으로 영향을 미치며 이로 인해 발생되는 로드레이지는 운전 수행도(Performance) 및 안전성에 부정적인 영향을 끼친다. 본 연구에서는 주행 맥락에서 운전자의 분노를 효과적으로 조절하기 위해서 옆에서 분노를 중재해줄 수 있는 동반자적 주행 봇(Companion Driving Bot)의 존재가 필요하며 운전자가 분노를 적절히 표현하기 위해서는 운전자와 동반자적 주행 봇 사이에 친밀한 관계가 형성되어야 하며 이를 컴패니언십(Companionship)으로 보았다. 따라서, 본 연구에서는 운전자와 함께 주행하면서 운전자가 분노를 느꼈을 때 동반자적 주행 봇이 어떤 인지적 반응(Cognitive response)을 해주면 운전자의 분노가 완화되며, 동반자적 주행 봇에게 공감 및 컴패니언십을 느끼는 지에 대처 방안(Coping strategy)에 대한 연구를 진행하고자 한다. 실험 결과, 분노 상황에서 함께 상대방을 비난(Blaming others)해주는 부적응적 대처 방안(Mal-adaptive coping strategy)이 적응적 대처방안(Adaptive coping strategy)에 비해 가장 분노 완화, 공감, 컴패니언십, 인지부하에 긍정적인 영향을 미친다는 것을 도출하였다. 이는 기존의 인지적 감정 조절 방안을 주행맥락에서 살펴봤다는 점과 향후 운전자의 분노를 조절하기 위한 에이전트 설계에 대한 선행적 연구로 학문적, 실용적 의의가 있다고 할 수 있다. Road rage, which refers to the violent and revengeful driving behaviors that occur on the roads due to expression of anger are becoming an increasingly significant social issue. The driving environment, in comparison to other environments, is one with more frequent external factors that cause anger in drivers. Despite this fact, there is a lack of research being conducted halted to the Anger Regulation from the perspective of drivers within driving environments. Driving while angry and emotional has a direct influence on the driving behavior of drivers and the road rage that results from this can have negative effects on the driving performance and safe driving behaviors of drivers. Therefore the objectives of this research study are to examine what type of cognitive emotional response by the companion driving bot could help regulate the anger of drivers when accompanying drivers during angering situations, and also to examine cognitive emotion coping strategies through which drivers could feel a sense of empathy and companionship from the companion driving bot. The results of this research confirmed that mal-adaptive coping strategies, including blaming others during angering situations, when compared to adaptive coping strategies, had a more significant mediating effect on anger reduction, empathy, companionship and workload.

      • Emotion-driven facial re-targeting : Multi-task learning for 3D facial expression transfer

        Ku, Yongmo Sungkyunkwan University 2024 국내석사

        RANK : 2591

        페이셜 리타겟팅(Facial Re-targeting)은 사용자의 얼굴 표정과 특징을 가성 공간에 구현 된 가상 아바타에게 전이시키는 기술이다. 페이셜 리타겟팅의 목적은 가상 아바타에게 사람 같은 실감나는 표정을 쉽게 전달하고 정형화된 애니메이션 작업을 최소화 하는 것이다. 이 기술은 비디오 게임, 영화, 애니메이션 및 가장 최근에는 메타버스와 같은 다양한 분야에서 활용되고 있다. 이전 연구는 피지컬 마커(Physical Marker)와 딥러닝을 사용한 얼굴 랜드마크 (Landmark)를 기반으로 진행했지만, 이러한 방법들은 계산 비용과 정확도 면에서 효율적이 지 않다. 본 논문에서는 얼굴 랜드마크에 대한 의존성을 없애는 새로운 딥러닝 기반 경량 얼굴 재타겟팅 모델을 제안하고자 한다. 본 논문에서 제안한 모델은 2D 이미지 데이터 세트에서 감정을 정확하게 식별하고 그 강도를 측정함으로써 얼굴 표정을 가상 아바타에 빠르고 견고 하게 리타겟팅 할 수 있음을 보여준다. 제안된 방법은 전문 지식이나 복잡한 소프트웨어 없이 간단한 페이셜 리타겟팅의 장점을 제공하며, 얼굴 랜드마크의 의존성을 제거하고 페이셜 리 타겟팅의 과정을 간소화한다. 본 연구는 경량하고 견고한 얼굴 재타겟팅을 위한 end-to-end 모델, 얼굴 랜드마크 없이 페이셜 리타겟팅 프로세스 및 응용에 대한 방법을 제시한다. 뿐 만 아니라, 데이터 수집 및 어노테이션(Annotation) 과정을 포함한 페이셜 리타겟팅 데이터 셋 및 유니티3D 엔진에서 실시간 페이셜 리타겟팅을 위한 본 모델의 전반적인 아키텍처 및 구현에 대해 소개한다. Facial re-targeting is a crucial role in transferring facial expressions to virtual avatars while maintaining the authenticity of the original expressions. It facilitates the development of lifelike and believable expressions for virtual avatars with minimal manual animation efforts. This technology has been employed to a variety of ends, like video games, movies, animations, and most recently, the Metaverse. Previous approaches have used facial markers and deep neural networks to target facial landmarks, but these methods suffer from inefficiencies in computation and are not precise. In this paper, we propose a new deep learning-based lightweight facial re-targeting model that eliminates the dependency on facial landmarks. Our model can accurately identify emotions and evaluate their intensity from 2D image datasets, enabling quick and robust re-targeting of facial expressions to virtual avatars. The proposed method provides advantages of simple facial re-targeting, without expertise or complicated software, and it simplifies re-targeting of facial features, eliminating the necessity for facial landmarks. We present the main contributions of our work, including the end-to-end model for lightweight and robust facial re-targeting, a facial re-targeting process without facial landmarks, and the applications of facial re-targeting. Additionally, we introduce our facial re-targeting datasets, including data collection and annotation processes. Finally, we present the problem statement, the overall architecture of our multi-task learning model, and the implementation of the proposed model for real-time facial re-targeting in the Unity3D Engine.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼