RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      환경에 강인한 음성 인식을 위해 선형 스펙트럼 변환기법을 이용한 음향 모델 적응 = Acoustic Model Adaptation using Linear Spectral Transformation for Robust Speech Recognition

      한글로보기

      https://www.riss.kr/link?id=T11560627

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      This dissertation proposes a robust acoustic model adaptation for automatic speech recognition (ASR) systems using continuous density hidden Markov models (CDHMMs) in unknown environments. We focus on the environmental adaptation method for practical applications using linear spectral transformation (LST). In the cepstral domain, it is difficult to handle environmental noise. LST deals with such noise in the linear spectral domain and it is able to operate with a relatively small number of transformation parameters. Hence, we can develop rapid adaptation approaches using a small amount of adaptation data; maximum likelihood (ML)-LST mean transformation, ML-LST mean and variance transformation, and maximum mutual information (MMI)-LST. However, these approaches require computational iteration procedures to obtain transformation parameters. To reduce the computational complexity and obtain real-time adaptation for practical applications, we exploit an approximate objective function of ML and propose a closed-form solution of ML-LST (CML-LST). To avoid erroneous transcription in adaptation, a lattice-based confidence measure is analyzed and this method is applied to the CML-LST for unsupervised adaptation. In addition, we propose an incremental CML-LST adaptation technique which accumulates the data statistics and achieves consistently improved performance during repeated attempts at adaptations. Finally, we combine the proposed methods and gain promising results by examining the TIMIT / FFMTIMIT and Aurora4 evaluations.
      번역하기

      This dissertation proposes a robust acoustic model adaptation for automatic speech recognition (ASR) systems using continuous density hidden Markov models (CDHMMs) in unknown environments. We focus on the environmental adaptation method for practical ...

      This dissertation proposes a robust acoustic model adaptation for automatic speech recognition (ASR) systems using continuous density hidden Markov models (CDHMMs) in unknown environments. We focus on the environmental adaptation method for practical applications using linear spectral transformation (LST). In the cepstral domain, it is difficult to handle environmental noise. LST deals with such noise in the linear spectral domain and it is able to operate with a relatively small number of transformation parameters. Hence, we can develop rapid adaptation approaches using a small amount of adaptation data; maximum likelihood (ML)-LST mean transformation, ML-LST mean and variance transformation, and maximum mutual information (MMI)-LST. However, these approaches require computational iteration procedures to obtain transformation parameters. To reduce the computational complexity and obtain real-time adaptation for practical applications, we exploit an approximate objective function of ML and propose a closed-form solution of ML-LST (CML-LST). To avoid erroneous transcription in adaptation, a lattice-based confidence measure is analyzed and this method is applied to the CML-LST for unsupervised adaptation. In addition, we propose an incremental CML-LST adaptation technique which accumulates the data statistics and achieves consistently improved performance during repeated attempts at adaptations. Finally, we combine the proposed methods and gain promising results by examining the TIMIT / FFMTIMIT and Aurora4 evaluations.

      더보기

      국문 초록 (Abstract)

      이 논문은 음성인식 시스템을 위해 연속 밀도 hidden Markov models (HMMs)을 음향 모델로 이용하여 잡음이 있는 환경에 강인한 음향 모델 적응기술을 제안한다. 그리고 linear spectral transformation (LST) 기술을 이용하여 실제 응용 프로그램을 위한 환경 적응 방법을 제안하는 것에 초점을 맞췄다. LST 기법을 이용한 음향 모델 적응은 선형 스펙트럼 도메인에서 처리되기 때문에 배경 잡음 같은 additive 잡음과 채널 잡음 같은 convolutional 잡음을 다루는데 유리하다. 그래서, 상대적으로 적은 수의 변환 매개변수를 이용할 수 있어서 적은 양의 데이터를 가지고도 적응을 할 수 있다. 그리고 이와 같은 LST 기법을 음향 모델의 평균값 변환과 음향 모델 평균값-분산값 동시 변환, 그리고 상관 (mutual) 정보 최대화 변환 기술 등으로 확장 제안하였다. 하지만, 이 방법들은 변환 매개변수를 구하기 위해 반복 추정을 해야 하는 계산비용이 요구된다. 그래서 계산 복잡도를 줄여 한번에 변환 매개변수를 구할 수 있는 LST의 근사 방법인 closed-form maximum likelihood LST (CML-LST) 기법을 제안하였다. 이 방법은 실제 응용 프로그램에 적용할 수 있는 실시간 적응을 가능하게 만든다. 또한 정답 전사 정보가 없는 상황을 고려하여, state 사후확률을 신뢰도로 (confidence measure) 이용하는 lattice 기반 비지도 적응 방법을 분석하고 CML-LST 기법에 적용하였다. 거기에 덧붙여, 한번 이상의 적응 시도에 대한 지속적인 성능 향상을 얻기 위해서 데이터의 통계치를 누적하는 incremental CML-LST 기법으로 확장 제안하였다. 결국, 통합된 이들 방법에 대해 TIMIT/FFMTIMIT 데이터와 Aurora4 데이터를 이용하여 잡음 환경에 강인한 음향 모델 적응 평가를 수행하였다.
      번역하기

      이 논문은 음성인식 시스템을 위해 연속 밀도 hidden Markov models (HMMs)을 음향 모델로 이용하여 잡음이 있는 환경에 강인한 음향 모델 적응기술을 제안한다. 그리고 linear spectral transformation (LST) ...

      이 논문은 음성인식 시스템을 위해 연속 밀도 hidden Markov models (HMMs)을 음향 모델로 이용하여 잡음이 있는 환경에 강인한 음향 모델 적응기술을 제안한다. 그리고 linear spectral transformation (LST) 기술을 이용하여 실제 응용 프로그램을 위한 환경 적응 방법을 제안하는 것에 초점을 맞췄다. LST 기법을 이용한 음향 모델 적응은 선형 스펙트럼 도메인에서 처리되기 때문에 배경 잡음 같은 additive 잡음과 채널 잡음 같은 convolutional 잡음을 다루는데 유리하다. 그래서, 상대적으로 적은 수의 변환 매개변수를 이용할 수 있어서 적은 양의 데이터를 가지고도 적응을 할 수 있다. 그리고 이와 같은 LST 기법을 음향 모델의 평균값 변환과 음향 모델 평균값-분산값 동시 변환, 그리고 상관 (mutual) 정보 최대화 변환 기술 등으로 확장 제안하였다. 하지만, 이 방법들은 변환 매개변수를 구하기 위해 반복 추정을 해야 하는 계산비용이 요구된다. 그래서 계산 복잡도를 줄여 한번에 변환 매개변수를 구할 수 있는 LST의 근사 방법인 closed-form maximum likelihood LST (CML-LST) 기법을 제안하였다. 이 방법은 실제 응용 프로그램에 적용할 수 있는 실시간 적응을 가능하게 만든다. 또한 정답 전사 정보가 없는 상황을 고려하여, state 사후확률을 신뢰도로 (confidence measure) 이용하는 lattice 기반 비지도 적응 방법을 분석하고 CML-LST 기법에 적용하였다. 거기에 덧붙여, 한번 이상의 적응 시도에 대한 지속적인 성능 향상을 얻기 위해서 데이터의 통계치를 누적하는 incremental CML-LST 기법으로 확장 제안하였다. 결국, 통합된 이들 방법에 대해 TIMIT/FFMTIMIT 데이터와 Aurora4 데이터를 이용하여 잡음 환경에 강인한 음향 모델 적응 평가를 수행하였다.

      더보기

      목차 (Table of Contents)

      • 1. Introduction 1
      • 1.1 Speech Recognition in Real Environments 2
      • 1.2 Challenges of Apdatation for Practical Applications 3
      • 1.3 Goal of the Thesis 4
      • 1.4 Organization of the Thesis 6
      • 1. Introduction 1
      • 1.1 Speech Recognition in Real Environments 2
      • 1.2 Challenges of Apdatation for Practical Applications 3
      • 1.3 Goal of the Thesis 4
      • 1.4 Organization of the Thesis 6
      • 2. The Concept of Speech Recognition 8
      • 2.1 Introduction 8
      • 2.2 Hidden Markov Models 11
      • 2.2.1 Transition and Output Probability 12
      • 2.2.2 Pattern Matching 13
      • 2.3 Maximum Likelihood Estimation 14
      • 2.4 Maximum Mutual Information Estimation 16
      • 2.5 Viterbi Decoding 19
      • 2.6 Speech Database and Experimental Environments 20
      • 2.6.1 TIMIT/FFMTIMIT Evaluation 20
      • 2.6.2 Aurora4 Evalutation 21
      • 2.7 Summary 22
      • 3. Rapid Environmental Adaptation 23
      • 3.1 Robust Adaptation Techniques 23
      • 3.2 Linear Spectral Transformation 27
      • 3.2.1 Motivation 28
      • 3.2.2 Domain conversion 30
      • 3.2.3 Maximum Likelihood Mean Transformation 32
      • 3.2.4 Maximum Likelihood Variance Transformation 34
      • 3.2.5 Maximum Mutual Information Mean Transformation 35
      • 3.3. Evaluation 38
      • 3.3.1 ML-LST Mean Adaptation 39
      • 3.3.2 ML-LST Mean and Variance Adaptation 40
      • 3.3.3 MMI-LST Adaptation 41
      • 3.4. Summary 42
      • 4. Real-time Adaptation 44
      • 4.1 Techniques for Real-time Computation 45
      • 4.2 Analysis of Log-normal Distribution 46
      • 4.3 Closed-form Linear Spectral Transformation 51
      • 4.4 Evaluation 54
      • 4.4.1 Comparison for ML-LST, CML-LST, and MLLR 55
      • 4.4.2 Evaluation for Additive and Convolutional Noise 56
      • 4.4.3 Regression Tree for Additional Data 58
      • 4.5 Summary 65
      • 5. Unsupervised Adaptation 66
      • 5.1 Unsupervised Adaptation Techniques 67
      • 5.2 Procedure of Lattice-based Adaptation 70
      • 5.3 Confidence Measure 72
      • 5.3.1 Pruning using Posterior Probability 72
      • 5.3.2 Word Posterior vs. State Posterior 73
      • 5.4 Evaluation 75
      • 5.4.1 Amount of Adaptation Data vs. Confidence Score 76
      • 5.4.2 Supervised vs. Unsupervised and 1-Best vs. Lattice 77
      • 5.4.3 Evaluation of Word Posterior Probability 79
      • 5.4.4 State Posterior vs. Word Posterior 82
      • 5.4.5 CML-LST vs. MLLR using Confidence Measure 84
      • 5.5 Summary 85
      • 6. Incremental Adaptation 86
      • 6.1 Incremental Adaptation Techniques 87
      • 6.2 Incremental Linear Spectral Transformation 90
      • 6.3 Regression Tree for Statistics Accumulation 94
      • 6.4 Evaluation 96
      • 6.4.1 Evaluation of Incremental CML-LST 96
      • 6.4.2 CML-LST vs. Incremental CML-LST 100
      • 6.5 Summary 101
      • 7. Conclusions and Future Works 102
      • 7.1 Summary and Contribution 102
      • 7.2 Future Research Directions 105
      • A. Derivation of Closed-form ML-LST Parameters 107
      • B. Computational Requirements of CML-LST and MLLR 111
      • C. Derivation of Diagonal MLLR Parameters 116
      • Bibliography 118
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼