http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
손종목,배건성 한국음향학회 1999 韓國音響學會誌 Vol.18 No.4
본 논문에서는 특징 파라미터의 분산과 인식성능에 대한 기여도를 고려하여 각 특징 파라미터를 가중시키는 방법을 제안하였다. 각 특징 파라미터의 인식률에 비례하게 전체 기여도를 설정하고, 각 특징 파라미터의 분산에 따라 가중요인을 설정하였다. 전체 기여도와 분산에 따른 가중요인을 사용하여 각 특징 파라미터의 상태별 가중치를 설정하였다. 제안한 방법의 유효성을 살펴보기 위해 유사음소 단위의 HMM 음성인식시스템을 사용하여 인식실험을 하였다. 인식실험에서 제안한 방법으로 가중치를 설정하였을 경우에 인식률이 7.7% 향상됨을 볼 수 있었다. In this paper, we proposed a new approach to weight each feature parameter by considering the dispersion of feature parameters and its degree of contribution to recognition rate. We determined the total distribution factor that is proportional to recognition rate of each feature parameter and the dispersion factor according to the dispersion of each feature parameter. Then. we determined state-dependent weighting using the total distribution factor and dispersion factor. To verify the validity of the proposed approach, recognition experiments were performed using the PLU(Phoneme-Like Unit)-based HMM. Experimental results showed the improvement of 7.7% at the recognition rate using the proposed method.
내용기반 비디오 색인 및 검색을 위한 음성인식기술 이용에 관한 연구
손종목,배건성,강경옥,김재곤 한국음향학회 2001 韓國音響學會誌 Vol.20 No.2
비디오 프로그램 색인 및 검색에 있어서 비디오 프로그램을 의미 있는 부분으로 분할하는 것, 즉 내용기반 비디오 프로그램 분할은 중요하다. 본 논문에서는 내용기반 비디오 프로그램 분할을 위해 음성인식기술을 이용하는 새로운 방법을 제안한다. 제안한 방법은 음성신호와 캡션 (Closed Caption)의 정확한 동기를 위해 음성인식 기법을 사용한다. 실험을 통하여 내용기반 비디오 프로그램 분할을 위해 제안한 방법의 가능성을 확인하였다. An important aspect of video program indexing and retrieval is the ability to segment video program into meaningful segments, in other words, the ability of content-based video program segmentation. In this paper, a new approach using speech recognition technology has been proposed for content-based video program segmentation. This approach uses speech recognition technique to synchronize closed caption with speech signal. Experimental results demonstrate that the proposed scheme is very promising for content-based video program segmentation.
PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법
손종목,정성윤,배건성 한국음향학회 2004 韓國音響學會誌 Vol.23 No.1
가우시안 선택기법은 연속 확률분포를 갖는 HMM음성인식기에서 인식성능을 저하시키지 않으면서 관측확률을 구할 때 계산되는 가우시안의 수를 줄여 효율적인 디코딩을 하기 위해 많이 이용되는 방법이다. 본 논문에서는 PTM 구조를 갖는 HMM에서 관측확률을 계산하는데 필요한 가우시안 함수의 부분집합을 구하는 새로운 가우시안 선택기법을 제안한다. PTM 모델에서는 음성신호의 음향특성에 따라 구분되는 클래스별 가중치와 공통적인 가우시안 집합을 이용하여 각 상태를 나타내는데, 제안한 방법에서는 PTM 구조가 갖는 이러한 특성을 이용하여 인식성능의 저하없이 관측확률 계산에 소요되는 적은 수의 가우시안 부분집합을 구한다. 실험결과 기존의 가우시안 선택기법이 가우시안 선택기법을 적용하지 않았을 경우에 비해 20∼30% 계산량을 필요로 하는데, 제안한 기법은 16.41%의 가우시안 함수 계산만으로도 별다른 인식성능 저하없이 인식 과정을 수행할 수 있었다. Gaussian selection (GS) is a popular approach in the continuous density hidden Markov model for fast decoding. It enables fast likelihood computation by reducing the number of Gaussian components calculated. In this paper, we propose a new GS method for the phonetic tied-mixture (PTM) hidden Markov models. The PTM model can represent each state of the same topological location with a shared set of Gaussian mixture components and contort dependent weights. Thus the proposed method imposes constraint on the weights as well as the number of Gaussian components to reduce the computational load. Experimental results show that the proposed method reduces the percentage of Gaussian computation to 16.41%, compared with 20-30% for the conventional GS methods, with little degradation in recognition.
WCDMA 음성 채널을 통해 데이터를 전송하기 위한 Minimax 최적화 기반의 코드북 설계 방법
이준호,손종목,이동욱,박용석,Lee, Junho,Son, Jongmok,Lee, Dong Wook,Park, Yongseok 한국음향학회 2015 韓國音響學會誌 Vol.34 No.1
본 논문에서는 음성 채널을 통해 데이터를 전송하기 위한 데이터 모뎀의 코드북 설계 방법에 대해 기술하였다. 제안한 코드북 설계 방법은 minimax 최적화 기법을 이용하여 탐색 공간에 분포하는 심볼들 중 최대 중첩을 갖는 심볼들의 중첩을 최소화하도록 하는 방법이다. 제안한 방법에 따라 설계된 코드북을 적용한 데이터 전송 시스템을 제시하였으며, 모의 실험과 실제 이동통신망 적용 실험을 통해 제안한 방법의 성능을 평가하였다. In this paper, a novel codebook design method for data modem over voice channel is presented. Proposed method searches the symbols which have the maximum probability distribution overlap in the symbol space and minimizes the overlap to improve the symbol error rate via minimax optimization. We present numerical simulations and an example implementation. We also give the results of the experiment tests.
Implementation of HMM Based Speech Recognizer with Medium Vocabulary Size Using TMS320C6201 DSP
정성윤,손종목,배건성,Jung, Sung-Yun,Son, Jong-Mok,Bae, Keun-Sung The Acoustical Society of Korea 2006 韓國音響學會誌 Vol.25 No.e1
In this paper, we focused on the real time implementation of a speech recognition system with medium size of vocabulary considering its application to a mobile phone. First, we developed the PC based variable vocabulary word recognizer having the size of program memory and total acoustic models as small as possible. To reduce the memory size of acoustic models, linear discriminant analysis and phonetic tied mixture were applied in the feature selection process and training HMMs, respectively. In addition, state based Gaussian selection method with the real time cepstral normalization was used for reduction of computational load and robust recognition. Then, we verified the real-time operation of the implemented recognition system on the TMS320C6201 EVM board. The implemented recognition system uses memory size of about 610 kbytes including both program memory and data memory. The recognition rate was 95.86% for ETRI 445DB, and 96.4%, 97.92%, 87.04% for three kinds of name databases collected through the mobile phones.
한국어 숫자음 전화음성의 채널왜곡에 따른 특징파라미터의 변이 분석 및 인식실험
정성윤,손종목,김민성,배건성,Jung Sung-Yun,Son Jong-Mok,Kim Min-Sung,Bae Keun-Sung 대한음성학회 2002 말소리 Vol.43 No.-
Improving the recognition performance of connected digit telephone speech still remains a problem to be solved. As a basic study for it, this paper analyzes the variation of feature parameters of Korean digit telephone speech according to channel distortion. As a feature parameter for analysis and recognition MFCC is used. To analyze the effect of telephone channel distortion depending on each call, MFCCs are first obtained from the connected digit telephone speech for each phoneme included in the Korean digit. Then CMN, RTCN, and RASTA are applied to the MFCC as channel compensation techniques. Using the feature parameters of MFCC, MFCC+CMN, MFCC+RTCN, and MFCC+RASTA, variances of phonemes are analyzed and recognition experiments are done for each case. Experimental results are discussed with our findings and discussions