RISS 검색 - 국내학술지논문 상세보기

부가정보

국문 초록 (Abstract)

딥러닝 기반 화자 검증 시스템에서는 일반적으로 프레임 단계 특징들을 풀링하여 문장 단계의 화자 임베딩을 추출하게 된다. 이러한 풀링 방식은 대체로 단순한 산술 평균 등의 연산을 통해...

딥러닝 기반 화자 검증 시스템에서는 일반적으로 프레임 단계 특징들을 풀링하여 문장 단계의 화자 임베딩을 추출하게 된다. 이러한 풀링 방식은 대체로 단순한 산술 평균 등의 연산을 통해 문장 단계의 임베딩으로 변환하게 되는데 이 과정에서 많은 정보를 읽게 된다. 이러한 문제를 해결하고자 본 논문에서는 프레임 단계의 특징 벡터들의 유사도 행렬을 구하고 이를 영상처리 분야에서 소개 되었던 교차 주의 기법을 통해 비교하고자 하는 음성 간의 유의미한 구간들 간의 비교를 하여 최종 검증 점수를 산출하는 기법을 제안한다. 화자 인식분야에서 보편적으로 쓰이는 공개 데이터베이스인 VoxCeleb1 과 VoxCelbe2 를 이용하여 실험한 결과, 기존의 풀링 기반의 화자 임베딩 모델보다 제안한 학습방식을 통해 학습한 모델이 더 높은 성능을 보임을 확인할 수 있었다.