http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
안영도(Youngdo Ahn),한상욱(Sangwook Han),이성주(Sung Joo Lee),신종원(Jong Won Shin) 한국통신학회 2021 한국통신학회 학술대회논문집 Vol.2021 No.11
최근 self-supervised learning 모델의 출력을 입력 특징으로 활용해서 음성인식, 화자인식, 음성감정인식에 높은 성능을 향상을 보인 바 있다. 본 논문은 한국어 음성감정인식 데이터셋에 대해 self-supervised learning 모델로써 wav2vec 특징을 기존의 음향적 특징을 비교한다. 한국어 음성감정인식 데이터셋 Korean Emotion Speech Dataset에서 제공하는 성별, 화자, 문장, 감정 라벨을 활용하여 t-SNE에 두 가지 특징을 살펴본다. 두 가지 특징에 대해 support vector machine 및 multi-layer perceptron 모델로 감정인식 성능 weighted average(WA)와 unweighted accuracy(UA)를 비교하였을 때, 두 모델에 대해 wav2vec 특징이 더 높은 음성감정인식 성능을 보여주었다.