http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가
김회린,이항섭,권오욱 한국음향학회 1998 韓國音響學會誌 Vol.17 No.7
본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.
Recursive Least-Square 알고리즘을 이용한 한국어 음소분류에 관한 연구
김회린,이황수,은종관,Kim, Hoe-Rin,Lee, Hwang-Su,Un, Jong-Gwan 한국음향학회 1987 韓國音響學會誌 Vol.6 No.3
본 논문에서는 recursive least-square(RLS) 알고리즘을 이용한 한국어 음소분류방법에 관하여 연구하였다. 각 음소의 특징벡터는 prewindowed RLS lattice 알고리즘을 사용하여 추출하는 방법을 제안하였고, 각 음소의 기준패턴은 추출된 특징벡터들을 벡터양자화하여 구성하였다. 제안된 음소인식방식의 성능시험을 위하여 한국어 음소중 자음11개와 모음 8개가 포함된 7개의 한국어 도시명을 발음하여 사용하였으며 초기의 각 음소의 기준패턴으로는 음성신호의 파형을 관찰하여 추출한 표준패턴(prototype)을 사용하였다. 컴퓨터 simulation의 결과로는 화자종속 음소인식의 경우 약간의 음소규칙을 고려할 때 약$85\%$의 음소인식율을 얻었으나, 화자독립 음소인식의 경우는 이보다 훨씬 낮은 인식율을 보였다. In this paper, a phoneme classification method for Korean speech recognition has been proposed and its performance has been studied. The phoneme classification has been done based on the phonemic features extracted by the prewindowed recursive least-square (PRLS) algorithm that is a kind of adaptive filter algorithms. Applying the PRLS algorithm to input speech signal, precise detection of phoneme boundaries has been made, Reference patterns of Korean phonemes have been generated by the ordinery vector quantization (VQ) of feature vectors obtained manualy from prototype regions of each phoneme. In order to obtain the performance of the proposed phoneme classification method, the method has been tested using spoken names of seven Korean cities which have eleven different consonants and eight different vowels. In the speaker-dependent phoneme classification, the accuracy is about $85\%$ considering simple phonemic rules of Korean language, while the accuracy of the speaker-independent case is far less than that of the speaker-dependent case.
김회린,김성탁 에스케이텔레콤 (주) 2003 Telecommunications Review Vol.13 No.5
히든 마코프 모델(HMM) 기반의 음성인식에서 문맥종속 음향모델 파라미터의 공유는 대어휘 음성인식에서 뿐만아니라 가변어휘 음성인식에서 제한된 훈련 데이터로부터 얻을 수 있는 음향모델의 정밀도 및 신뢰도를 향상시키기 위한 방법들 가운데 대표적인 수단으로 널리 사용되고 있다. 특히, 가변어휘 음성인식의 경우 훈련환경에서 관측되지 않은 모델들의 적절한 파라미터 추정이 매우 중요한 문제가 된다. 이러한 문제를 해결하기 위한 방법으로 파라미터 공유와 비관측모델 추정이 동시에 가능한 이진 결정트리(binary decision tree)를 많이 이용한다. 본 논문에서는 이진 결정트리를 이용하여 보다 정확한 비관측모델 추정을 하기위해 새로운 트리 성장 중지 기법 및 각 노드에서의 최적 질의문 선택 방법을 제안하고 이들을 두 단계 트리 생성 방법으로 통합한 혼합 트리 생성 구조를 제안한다. 다양한 가변어휘 음성인식 실험을 통하여 첫번째 제안 방법은 기존의 단순한 결정트리 구성 방법에 비하여 평균 32.8%의 인식오류감소율(ERR)을 보여 주었고 두번째 방법은 41.4%의 ERR, 그리고 혼합 트리 생성 방법은 44.1%의 ERR을 보여 주었다. 이상의 결과들로부터 제안한 방법들이 가변어휘 음성인식을 위한 음향모델 공유와 비관측모델 추정에 동시에효과적임을 보여 주었다.
김회린,박만수 에스케이텔레콤 (주) 2006 Telecommunications Review Vol.16 No.3
최근 오디오 핑거프린트 기술을 활용하여 텍스트 기반의 음악 검색 방법에서 벗어나 내용기반의 음악 정보검색이 가능하게 되었다. 그러나 다양한 환격애서 음악을 인식하기 위해서는 디지털 신호 뿐만 아니라 실제 아날로그 신호를 녹음하여 인식할수 있는 기술이 필요하다. 이때 일반 환경에서 아날로그 음악 신호를 녹음하는 경우 채널 특성과 주변 잡음의 영향으로 신호에 왜곡이 발생하게 된다. 즉 오디오 신호 왜곡으로 인하여 오디오 특정 값이 일정하게 추출되지 않아 인식률이 저하되게 된다. 따라서 왜곡에 강인한 오디오 핑거프리트 기술을 통해 실제 어플리케이션에 적합하도록 빠른 검색시간과 인식 정확도를 높이는 것은 매우 중요하다. 본 논문은 확률적 패턴 모델링 방식에 확률 모델의 유사도를 측정하기 위해 새로운 거리척도 함수를 제안하였다. 그리고 오디오 해슁 기법에서 실제 잡음 환경에 강인한 오디오 핑거프린트를 추출하기 위해 기존의 HPF 타입의 주파수 필터링의 대안으로 2차 FIR 필터의 BPF 타입을 제안하엿고 채널 왜곡에 강인한 오디오 핑거프린트를 추출하기 위해 기존의 HPF 타입의 시간축 필터링의 대안으로 RASTA를 적용하였다. 다양한 잡음환경 및 채널환경에서 실험에서 제안한 방법들이 음악 인식 성능 개선에 효과적이었다.