RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      적응필터링 기법을 이용한 잡음음성의 화자적응화에 관한 연구 = (A) Study on Speaker Adaptive of Noise-corrupted speech using Adaptive Filtering Method

      한글로보기

      https://www.riss.kr/link?id=T9044399

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 이용하여 소량의 적응화용 데이터를 추가적으로 학습하여 특정 환경 및 특정화자 모델에 근접한 인식률을 얻는 방법이 주목되어지고 있다.
      음성인식을 실생활에 이용하기 위해서 인식률을 저하시키는 요인인 잡음을 감소시켜야 한다. 본 논문에서는 RLS적응필터를 이용하여 잡음을 감소시켰다. 그리고 기존의 Mel Cepstrum 대신 SGDS(Smooth Group Delay Spectrum)을 특징 파라미터로 사용하였다. 음절단위의 HMM을 이용하여 발성된 한 문장에 대해 화자 적응화할 수 있는 방법을 제안하였다. 음절단위 HMM모델을 구축한 후 적응화 하고자 하는 환경 및 화자의 데이터(음절 및 문장)를 연결학습법과 Viterbi 알고리듬으로 음절단위의 추출을 자동화한 후 MAP(최대사후확률추정)을 이용하여 적응화하였다. 음절 CHMM(연속분포 HMM)모델을 학습한 후 연속음성을 화자 적응화 하였다.
      시뮬레이션 실험에서는 잡음음성을 필터링한 경우와 하지 않은 경우에 대하여 인식실험을 하였다. ML로 추정한 파라미터를 가지고 MAP 추정한 경우와 Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 MAP 추정한 경우에 대한 화자적응화 실험이다. 연속음성 인식방법으로는 O(n)DP법을 이용하였다. 실험결과, ML로 추정한 파라미터를 가지고 평균, 분산, 평균과 분산을 MAP 추정한 경우 분산만을 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 75.2%, 55.8%, 46.1%이고, 필터링한 후의 인식률은 각각 75.7%, 74.5%, 71.0%이다.
      Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 평균, 분산, 평균과 분산을 MAP 추정한 경우 평균과 분산을 동시에 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 68.5%, 62.8%, 42.8%이고, 필터링한 후의 인식률은 각각 72.5%, 73.0%, 75.9%이다.
      번역하기

      현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 ...

      현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 이용하여 소량의 적응화용 데이터를 추가적으로 학습하여 특정 환경 및 특정화자 모델에 근접한 인식률을 얻는 방법이 주목되어지고 있다.
      음성인식을 실생활에 이용하기 위해서 인식률을 저하시키는 요인인 잡음을 감소시켜야 한다. 본 논문에서는 RLS적응필터를 이용하여 잡음을 감소시켰다. 그리고 기존의 Mel Cepstrum 대신 SGDS(Smooth Group Delay Spectrum)을 특징 파라미터로 사용하였다. 음절단위의 HMM을 이용하여 발성된 한 문장에 대해 화자 적응화할 수 있는 방법을 제안하였다. 음절단위 HMM모델을 구축한 후 적응화 하고자 하는 환경 및 화자의 데이터(음절 및 문장)를 연결학습법과 Viterbi 알고리듬으로 음절단위의 추출을 자동화한 후 MAP(최대사후확률추정)을 이용하여 적응화하였다. 음절 CHMM(연속분포 HMM)모델을 학습한 후 연속음성을 화자 적응화 하였다.
      시뮬레이션 실험에서는 잡음음성을 필터링한 경우와 하지 않은 경우에 대하여 인식실험을 하였다. ML로 추정한 파라미터를 가지고 MAP 추정한 경우와 Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 MAP 추정한 경우에 대한 화자적응화 실험이다. 연속음성 인식방법으로는 O(n)DP법을 이용하였다. 실험결과, ML로 추정한 파라미터를 가지고 평균, 분산, 평균과 분산을 MAP 추정한 경우 분산만을 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 75.2%, 55.8%, 46.1%이고, 필터링한 후의 인식률은 각각 75.7%, 74.5%, 71.0%이다.
      Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 평균, 분산, 평균과 분산을 MAP 추정한 경우 평균과 분산을 동시에 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 68.5%, 62.8%, 42.8%이고, 필터링한 후의 인식률은 각각 72.5%, 73.0%, 75.9%이다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by additionally small amount of adaptation data to the special environments and speaker models get highly good recognition rate.
      In order to apply speech recognition to real life, we have to reduce the noise that makes recognition rate reduced. In this paper, the RLS adaptive filter reduce the noise. In stead of MEL Cepstrum which now is used in speech recognition, SGDS(Smoothed Group Delay Spectrum) as a parameter is used.
      In this study, speaker adaptation of uttered sentence using syllable unit HMM is proposed. Making data-base of syllable unit HMM model and segmentation of syllable of speaker data(syllables and sentence) for adaptation is performed automatically by concatenation training and Viterbi algorithm. And speaker adaptation is performed by MAPE(Maximum A Posteriori Probability Estimation).
      In simulation test, Continuous speech data is adapted by MAPE, after training syllable unit CHMM model.
      There are two ways in speaker adaptation. One is to estimate MAP with the ML parameter. The other is to estimate MAP with the frame sampled by Viterbi Algorithm. O(n)DP method is used in continue speech recognition method. MAPE by the ML estimated mean, covariance, and mean-covariance. The highest recognition rate is when MAPE by covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 75.2%, 55.8%, and 46.1%, before filtering. After filtering, the rate is 75.7%, 74.5%, and 71.0%.
      Among MAPE by mean, covariance and mean-covariance with the frame sampled by Viterbi Algorithm. The highest rate is when MAP is estimated by mean-covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 68.5%, 62.8%, and 42.8%, before filtering. However, the rate is 72.5%, 73.0%, and 75.9% after filtering.
      번역하기

      Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by addit...

      Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by additionally small amount of adaptation data to the special environments and speaker models get highly good recognition rate.
      In order to apply speech recognition to real life, we have to reduce the noise that makes recognition rate reduced. In this paper, the RLS adaptive filter reduce the noise. In stead of MEL Cepstrum which now is used in speech recognition, SGDS(Smoothed Group Delay Spectrum) as a parameter is used.
      In this study, speaker adaptation of uttered sentence using syllable unit HMM is proposed. Making data-base of syllable unit HMM model and segmentation of syllable of speaker data(syllables and sentence) for adaptation is performed automatically by concatenation training and Viterbi algorithm. And speaker adaptation is performed by MAPE(Maximum A Posteriori Probability Estimation).
      In simulation test, Continuous speech data is adapted by MAPE, after training syllable unit CHMM model.
      There are two ways in speaker adaptation. One is to estimate MAP with the ML parameter. The other is to estimate MAP with the frame sampled by Viterbi Algorithm. O(n)DP method is used in continue speech recognition method. MAPE by the ML estimated mean, covariance, and mean-covariance. The highest recognition rate is when MAPE by covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 75.2%, 55.8%, and 46.1%, before filtering. After filtering, the rate is 75.7%, 74.5%, and 71.0%.
      Among MAPE by mean, covariance and mean-covariance with the frame sampled by Viterbi Algorithm. The highest rate is when MAP is estimated by mean-covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 68.5%, 62.8%, and 42.8%, before filtering. However, the rate is 72.5%, 73.0%, and 75.9% after filtering.

      더보기

      목차 (Table of Contents)

      • 목차 = ⅲ
      • Ⅰ. 서론 = 1
      • Ⅱ. 적응필터 (Adaptive Filter) = 3
      • 1. Transversal Filter = 3
      • 2. 점화적 최소자승(Recursive Least Square : RLS) 알고리즘 = 7
      • 목차 = ⅲ
      • Ⅰ. 서론 = 1
      • Ⅱ. 적응필터 (Adaptive Filter) = 3
      • 1. Transversal Filter = 3
      • 2. 점화적 최소자승(Recursive Least Square : RLS) 알고리즘 = 7
      • Ⅲ. HMM에 의한 학습 = 11
      • 1. 연속출력 확률분포 HMM = 11
      • 2. 화자적응화 = 14
      • 가. 화자 적응화 = 14
      • 나. 연결 학습 = 16
      • 3. 최대 사후확률 추정법 = 17
      • 가. ML 추정에 의한 파라미터의 MAP 추정 = 21
      • 나. Viterbi 알고리즘에 의한 추출 프레임의 MAP 추정 = 22
      • Ⅳ. 연속 음성 인식 = 23
      • 1. 연속 음성인식 알고리즘 = 23
      • 가. O(n)DP법에 의한 연속음성 인식 = 27
      • Ⅴ. 인식 실험 및 결과 고찰 = 31
      • 1. 분석 조건 및 음성 데이터 = 31
      • 2. 초기학습 방법 = 33
      • 3. 실험결과 및 고찰 = 34
      • 가. 음성에 잡음을 섞지 않았을 경우 = 35
      • 나. 신호대잡음비가 10dB인 경우 = 36
      • 다. 신호대잡음비가 5dB인 경우 = 38
      • 라. 신호대잡음비가 0dB인 경우 = 40
      • Ⅵ. 결론 = 42
      • 참고문헌 = 44
      • ABSTRACT = 46
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼