음성인식을 위한 분할 비터비 알고리즘 = Segmented viterbi algorithm for speech recognition|RISS 상세보기

국문 초록 (Abstract)

음성인식은 마이크로폰으로 소리신호를 입력 받아 그 소리신호가 어떤 음소, 단어, 문장인지 인식하는 기술이며 인간-컴퓨터간 음성 인터페이스를 구축하기 위해 매우 중요하다. 음성인식에서 입력은 마이크로폰으로 받은 음성신호를 컴퓨터로 처리 가능한 특징벡터로 변환하여 사용하고, 그 특징벡터는 인간의 청각신경과 비슷하도록 만든 mel-frequency cepstral coefficients (MFCC) 모델을 주로 이용한다. 음향모델은 기계학습 방법 중 하나인 hidden Markov model (HMM) 을 이용하여 학습과 인식에 주로 사용되고 최종 결과를 출력하는 디코딩에는 Viterbi algorithm이 주로 사용되고 있다.
현재 대부분의 음성인식기는 충분히 병렬처리 되지 못하고 있으나 멀티코어를 가진 컴퓨터의 증가로 병렬처리가 가능한 음성인식 알고리즘 연구의 필요성이 증대되고 있다. 본 논문은 음성인식 병렬처리에 활용될 수 있는 디코딩 알고리즘인 segmented Viterbi를 제안하고 실험하였다.
일반적인 Viterbi는 전체 음성구간에 대해 각각의 확률과 그 확률을 가지게 하는 바로 전의 state를 저장하고 최종적으로 backtracking과정을 통해 가장 확률이 높았던 path를 찾아 결과로 출력하는 음성인식 디코딩에 사용되는 알고리즘으로 이 과정이 한번에 처리되기 때문에 일반적으로는 병렬화 되기 어렵다. 그 문제를 해결하기 위해 제안한 segmented Viterbi algorithm은 기존과는 다르게 전체 음성구간을 한번에 디코딩 하는 것이 아니라 음성구간을 적당한 크기로 나누어 각각 디코딩하는 방법이다. Segmented Viterbi는 입력 받은 음성신호를 적당한 크기로 분할하고 각각 Viterbi 디코딩을 하여 음소형태로 결과를 출력한 다음 그 결과들을 취합하여 최종 인식 결과를 만든다. 이 segmented Viterbi algorithm의 성능 향상을 위해 고려될 문제로는 음성 분할 방법과 Viterbi 디코딩 후 결과 취합 방법, 그리고 정확도를 올리기 위한 추가적인 오류 보정 방법이 있다.
본 논문은 segmented Viterbi algorithm의 정확도 상승을 위해 여러 세부 특성을 가진 방법을 제안한다. 에너지가 큰 peak를 모음 중간으로 보고 그곳을 찾아 분할하는 방법, 위에서 찾은 모음 음소의 peak에서 가까운 valley를 찾아 음소의 경계로 보고 분할하는 방법, 분할하는 구간은 오류일 가능성이 높기 때문에 분할 구간에서 path backtracking시 나오는 첫 음소를 버리고 그 시간을 다음 구간에 반영하는 방법, 균등하게 분할하는 방법, 가능한 비슷한 구간을 만들지만 지역적인 valley에서 분할하는 방법, 가능한 비슷한 구간을 만들지만 지역적인 peak에서 분할하는 방법을 세부 특성으로 제안하였다. 제안된 방법은 monophone과 왼쪽만 이용한 cross-word biphone, cross-word triphone에서 실험을 수행 하였다. 추가적으로 path backtracking시 나오는 첫 음소를 버리고 그 시간을 다음 구간에 반영하는 오류 보정 방법에 대해 첫 음소뿐 아니라 여러 개의 음소를 버릴 때의 효과와, 제안한 방법들에 대한 monophone bigram에서의 영향도 실험하였다.

번역하기

음성인식은 마이크로폰으로 소리신호를 입력 받아 그 소리신호가 어떤 음소, 단어, 문장인지 인식하는 기술이며 인간-컴퓨터간 음성 인터페이스를 구축하기 위해 매우 중요하다. 음성인식...

목차 (Table of Contents)

목 차
제 1장 서론∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 1
제 2 장 관련 연구∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 3
2.1 Viterbi Algorithm ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 3

목 차
제 1장 서론∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 1
제 2 장 관련 연구∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 3
2.1 Viterbi Algorithm ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 3
2.1.1 Forward-Backward Procedure ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 3
2.1.2 Viterbi∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 7
2.2 요약∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 10
제 3 장 Segmented Viterbi Algorithm ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 11
3.1 세부 특성 및 방법 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 12
3.1.1 분할 방법: 모음 중간 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 13
3.1.2 분할 방법: 음소 사이 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 14
3.1.3 오류 보정 방법: 다음 구간 반영 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 15
3.1.4 분할 방법: 균등 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 16
3.1.5 분할 방법: 균등 Valley ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 17
3.1.6 분할 방법: 균등 Peak ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 18
3.2 요약∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 19
제 4 장 실험∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 20
4.1 실험 데이터 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 21
4.2 실험 결과 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 24
4.2.1 Monophone 실험 결과 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 25
4.2.2 Biphone 실험 결과 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 28
4.2.3 Triphone 실험 결과 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 31
4.2.4 오류 보정 추가 실험 결과 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 34
4.2.5 Monophone Bigram 실험 결과 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 38
4.2.6 실험 요약 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 43
제 5 장 결론 및 향후 과제 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 45
부록 A. State Tying에 사용한 Question Set ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 47
A.1 Biphone에 사용한 Question Set ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 47
A.2 Triphone에 사용한 Question Set ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 50
참고 문헌 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ 58

상세검색

RISS 보유자료

상세검색

해외전자자료

음성인식을 위한 분할 비터비 알고리즘 = Segmented viterbi algorithm for speech recognition

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료