RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      기본주파수와 성도길이의 상관관계를 이용한 HTS 음성합성기에서의 목소리 변환 = Voice transformation for HTS using correlation between fundamental frequency and vocal tract length

      한글로보기

      https://www.riss.kr/link?id=A103043984

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      The main advantage of the statistical parametric speech synthesis is its flexibility in changing voice characteristics. A personalized text-to-speech(TTS) system can be implemented by combining a speech synthesis system and a voice transformation syst...

      The main advantage of the statistical parametric speech synthesis is its flexibility in changing voice characteristics. A personalized text-to-speech(TTS) system can be implemented by combining a speech synthesis system and a voice transformation system, and it is widely used in many application areas. It is known that the fundamental frequency and the spectral envelope of speech signal can be independently modified to convert the voice characteristics. Also it is important to maintain naturalness of the transformed speech. In this paper, a speech synthesis system based on Hidden Markov Model(HMM-based speech synthesis, HTS) using the STRAIGHT vocoder is constructed and voice transformation is conducted by modifying the fundamental frequency and spectral envelope. The fundamental frequency is transformed in a scaling method, and the spectral envelope is transformed through frequency warping method to control the speaker’s vocal tract length. In particular, this study proposes a voice transformation method using the correlation between fundamental frequency and vocal tract length. Subjective evaluations were conducted to assess preference and mean opinion scores(MOS) for naturalness of synthetic speech. Experimental results showed that the proposed voice transformation method achieved higher preference than baseline systems while maintaining the naturalness of the speech quality.

      더보기

      목차 (Table of Contents)

      • Abstract
      • 1. 서론
      • 2. 기본주파수 및 성도길이 연관성 분석
      • 3. 제안한 목소리변환 방법 및 실험결과
      • 4. 결론
      • Abstract
      • 1. 서론
      • 2. 기본주파수 및 성도길이 연관성 분석
      • 3. 제안한 목소리변환 방법 및 실험결과
      • 4. 결론
      • 참고문헌
      더보기

      참고문헌 (Reference)

      1 Stylianou, Y., "Voice transformation: A survey" 3585-3588, 2009

      2 Saheer, L., "Vocal tract length normalization for statistical parametric speech synthesis" 20 (20): 2134-2148, 2012

      3 Sündermann, D., "VTLN-based voice conversion" 556-559, 2003

      4 Tokuda, K., "Speech Synthesis Based on Hidden Markov Models" 1234-1252, 2013

      5 Kawahara, H., "STRAIGHT, exploration of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds" 27 : 349-353, 2006

      6 Assmann, P. F., "Modeling the perception of frequency-shifted vowels" 425-428, 2002

      7 Tokuda, K., "Mel-generalized cepstral analysis - A unified approach to speech spectral estimation" 1043-1046, 1994

      8 Saheer, L., "Implementation of VTLN for Statistical Speech Synthesis" 224-229, 2010

      9 Zen, H., "Details of the Nitech HMM-based speech synthesis system for Blizzard Challenge 2005" E90-D : 325-333, 2007

      1 Stylianou, Y., "Voice transformation: A survey" 3585-3588, 2009

      2 Saheer, L., "Vocal tract length normalization for statistical parametric speech synthesis" 20 (20): 2134-2148, 2012

      3 Sündermann, D., "VTLN-based voice conversion" 556-559, 2003

      4 Tokuda, K., "Speech Synthesis Based on Hidden Markov Models" 1234-1252, 2013

      5 Kawahara, H., "STRAIGHT, exploration of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds" 27 : 349-353, 2006

      6 Assmann, P. F., "Modeling the perception of frequency-shifted vowels" 425-428, 2002

      7 Tokuda, K., "Mel-generalized cepstral analysis - A unified approach to speech spectral estimation" 1043-1046, 1994

      8 Saheer, L., "Implementation of VTLN for Statistical Speech Synthesis" 224-229, 2010

      9 Zen, H., "Details of the Nitech HMM-based speech synthesis system for Blizzard Challenge 2005" E90-D : 325-333, 2007

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.5 0.5 0.52
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.5 0.49 0.988 0.22
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼