현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T9044399
부산 : 東亞大學校 大學院, 1999
1999
한국어
적응필터링 ; RLS 적응필터 ; 화자적응화 ; 연속음성인식 ; HMM ; VITERBI 알고리듬 ; 최대사후확률 추정법 ; 잡음음성 ; 화자적응 ; 음성인식
566.7454 판사항(4)
621.3827 판사항(21)
부산
vi, 47p. : 삽도 ; 26cm
참고문헌: p. 44-45
0
상세조회0
다운로드현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 ...
현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 이용하여 소량의 적응화용 데이터를 추가적으로 학습하여 특정 환경 및 특정화자 모델에 근접한 인식률을 얻는 방법이 주목되어지고 있다.
음성인식을 실생활에 이용하기 위해서 인식률을 저하시키는 요인인 잡음을 감소시켜야 한다. 본 논문에서는 RLS적응필터를 이용하여 잡음을 감소시켰다. 그리고 기존의 Mel Cepstrum 대신 SGDS(Smooth Group Delay Spectrum)을 특징 파라미터로 사용하였다. 음절단위의 HMM을 이용하여 발성된 한 문장에 대해 화자 적응화할 수 있는 방법을 제안하였다. 음절단위 HMM모델을 구축한 후 적응화 하고자 하는 환경 및 화자의 데이터(음절 및 문장)를 연결학습법과 Viterbi 알고리듬으로 음절단위의 추출을 자동화한 후 MAP(최대사후확률추정)을 이용하여 적응화하였다. 음절 CHMM(연속분포 HMM)모델을 학습한 후 연속음성을 화자 적응화 하였다.
시뮬레이션 실험에서는 잡음음성을 필터링한 경우와 하지 않은 경우에 대하여 인식실험을 하였다. ML로 추정한 파라미터를 가지고 MAP 추정한 경우와 Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 MAP 추정한 경우에 대한 화자적응화 실험이다. 연속음성 인식방법으로는 O(n)DP법을 이용하였다. 실험결과, ML로 추정한 파라미터를 가지고 평균, 분산, 평균과 분산을 MAP 추정한 경우 분산만을 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 75.2%, 55.8%, 46.1%이고, 필터링한 후의 인식률은 각각 75.7%, 74.5%, 71.0%이다.
Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 평균, 분산, 평균과 분산을 MAP 추정한 경우 평균과 분산을 동시에 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 68.5%, 62.8%, 42.8%이고, 필터링한 후의 인식률은 각각 72.5%, 73.0%, 75.9%이다.
다국어 초록 (Multilingual Abstract)
Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by addit...
Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by additionally small amount of adaptation data to the special environments and speaker models get highly good recognition rate.
In order to apply speech recognition to real life, we have to reduce the noise that makes recognition rate reduced. In this paper, the RLS adaptive filter reduce the noise. In stead of MEL Cepstrum which now is used in speech recognition, SGDS(Smoothed Group Delay Spectrum) as a parameter is used.
In this study, speaker adaptation of uttered sentence using syllable unit HMM is proposed. Making data-base of syllable unit HMM model and segmentation of syllable of speaker data(syllables and sentence) for adaptation is performed automatically by concatenation training and Viterbi algorithm. And speaker adaptation is performed by MAPE(Maximum A Posteriori Probability Estimation).
In simulation test, Continuous speech data is adapted by MAPE, after training syllable unit CHMM model.
There are two ways in speaker adaptation. One is to estimate MAP with the ML parameter. The other is to estimate MAP with the frame sampled by Viterbi Algorithm. O(n)DP method is used in continue speech recognition method. MAPE by the ML estimated mean, covariance, and mean-covariance. The highest recognition rate is when MAPE by covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 75.2%, 55.8%, and 46.1%, before filtering. After filtering, the rate is 75.7%, 74.5%, and 71.0%.
Among MAPE by mean, covariance and mean-covariance with the frame sampled by Viterbi Algorithm. The highest rate is when MAP is estimated by mean-covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 68.5%, 62.8%, and 42.8%, before filtering. However, the rate is 72.5%, 73.0%, and 75.9% after filtering.
목차 (Table of Contents)