http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
단어 음성의 시점 · 종점 결정 및 유성 · 무성 · 무음 분류 알고리즘
오영환(Yung Hwan Oh) 한국정보과학회 1985 정보과학회논문지 Vol.12 No.1
본 논문에서는 단어음성의 시점 · 종점 결정 및 유성 · 무성 · 무음분류를 할 수 있는 비교적 간단한 알고리즘의 개발을 위해, 각 자음을 포함하는 25개의 단어음성을 대상으로 한 컴퓨터 시믈레이션 결과에 대해 논했다. 대수에너지, 영교차률, 일표본지연 자기상관계수를 특징 파라미터로 사용한 결과, 알고리즘의 복잡도에 비해 비교적 좋은 결과를 얻을 수 있었다. In this paper, a comparatively simple algorithm for endpoints determination and voiced-unvoiced-silence classification, and its simulation results for 25 spoken words are shown. Log energy, zero crossing rate and one-sample delayed autocorrelation coefficient are used as feature parameters and promising results are obtained considering the complexity of the algorithm.
音素間 類似度의 整數空間에의 投影에 依한 單語音聲의 認識
오영환(Yung Hwan Oh) 한국정보과학회 1983 정보과학회논문지 Vol.10 No.4
音素認識部를 包含하는 單語音聲認識시스템의 機能을 向上시키기 爲한 方法으로, 音素間 類似度의 整數空間에의 投影을 提案하고 本 認識시스템에 依한 컴퓨터 시뮬레이션 結果에 關해서도 記述했다. 提案된 手法은 從來의 音素記號列의 패턴整合에 依한 認識에 比해 良好한 結果를 얻었다. To improve word speech recognition system including phoneme recognizer, a transform method which maps similarity between phonemes into integer space is proposed In this paper. Computer simulation with Korean digits speech are earned out, and good results are obtained comparing with traditional method which directly uses phoneme code strings
오영환(Yung Hwan Oh) 한국정보과학회 1982 정보과학회논문지 Vol.9 No.2
本 論文에서는 線形豫測分析時 얻어지는 音響파라미터인 自己相關係數, 線形豫測係數 및 偏自己相關係數를 利用하여, 多母集團間 判別分析手法에 의한 音素認識過程을 包含하는 單語認識시스템에 대해 論했다. 또한 시스템의 有效性을 確認하기 위해 國語數字音聲을 利用하여 音素認識實驗을 遂行한 結果에 대해서도 記述했다. 이는, 周波數領域의 파라미터나 2母集團間 判別分析手法을 利用하는 認識機에 比해 計算時間과 記憶容量의 節減을 가져 올 수 있다. In this paper, a Korean word-speech recognition system is described, which includes phoneme recognizer using 'multipopulational' discriminant analysis method. Three acoustic parameters used here are autocorrelation coefficients, linear predictive coefficients and partial autocorrelation coefficients obtained from LPC analysis of speech. Results of phoneme recognition experiment with digits speech are also shown. The system can save memory space and calculation time compared with that using formant frequencies or discriminant analysis between two populations.
확률적 스펙트럼 차감법을 이용한 잡은 환경에서의 음성인식
지상문,오영환,Chi, Sang-Mun,Oh, Yung-Hwan 한국음향학회 1997 韓國音響學會誌 Vol.16 No.6
본 논문에서는 잡음환경에서의 음성인식을 위하여 잡음의 확률적 특성과 음성모델을 이용하는 확률적 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 음성이 존재하지 않는 구간에서 추정한 잡음을 잡음음성에서 차감하여 잡음을 제거함로, 추정한 잡음의 형태가 음성인식기에 입력되는 잡음음성에 포함된 잡음과 상이한 특성을 나타낼 경우에는 효과적인 잡음의 제거가 불가능하다. 이러한 단점을 보완하기 위해서 여러 가지 형태를 가지는 잡음의 원형을 사용하여, 잡음음성에서 잡음을 제거하는 방법을 사용하였다. 잡음의 확률적인 특성을 여러 개의 잡음원형으로 나타내므로, 스펙트럼 차감법은 입력음성에 대해서 확률적으로 수행되어 잡음이 제거된 다중의 스펙트럼을 출력하게 되고, 인식시에는 조용한 환경의 음성으로 학습된 음성모델에 따른 최적의 스펙트럼을 이용하여 인식을 수행한다. 또한 정적인 파라미터와 동적인 특징파라미터를 동시에 고려하여 잡음을 영향을 최소화하므로 보다 효과적인 잡음처리가 가능하다. 제안한 방법의 타당성을 실험적으로 검증하기 위해서, 잡음환경의 음성인식에 적용하였다. SNR 10 dB인 50개의 고립단어에 대한 실험결과, 잡음처리를 하지 않았을 경우 72.75%, 스펙트럼 차감법은 80.25%, 제안한 방법을 사용하였을 경우는 86.25%의 인식률을 얻음으로써, 효과적인 잡음처리 방법임을 확인할 수 있었다. This paper describes a technique of probabilistic spectral subtraction which uses the knowledge of both noise and speech so as to reduce automatic speech recognition errors in noisy environments. Spectral subtraction method estimates a noise prototype in non-speech intervals and the spectrum of clean speech is obtained from the spectrum of noisy speech by subtracting this noise prototype. Thus noise can not be suppressed effectively using a single noise prototype in case the characteristics of the noise prototype are different from those of the noise contained in input noisy speech. To modify such a drawback, multiple noise prototypes are used in probabilistic subtraction method. In this paper, the probabilistic characteristics of noise and the knowledge of speech which is embedded in hidden Markov models trained in clean environments are used to suppress noise. Futhermore, dynamic feature parameters are considered as well as static feature parameters for effective noise suppression. The proposed method reduced error rates in the recognition of 50 Korean words. The recognition rate was 86.25% with the probabilistic subtraction, 72.75% without any noise suppression method and 80.25% with spectral subtraction at SNR(Signal-to-Noise Ratio) 10 dB.
롬바드 효과의 보정을 위한 스펙트럼 크기의 정규화와 켑스트럼 변환
지상문,오영환,Chi, Sang-Mun,Oh, Yung-Hwan 한국음향학회 1996 韓國音響學會誌 Vol.15 No.4
본 연구에서는 음성인식기의 성능이 잡음환경하에서 급격히 저하되는 것을 완화하기 위해, 성능저하의 원인인 롬바드효과의 보정과 잡음의 제거방법을 제안하였다. 롬바드 효과는 조용한 환경에서 발성된 음성에 비해, 스펙트럼 포락과 발성음의 세기를 변이 시키는 것으로 모델링하였고, 변이의 제거를 위해 스펙트럼 크기의 정규화와 켑스트럼 변환을 사용하였다. 주변 잡음의 첨가에 의한 음성신호의 왜곡은 스펙트럼 차감법을 사용하여 완화하였고, 음성의 동적인 특성을 강조하기 위해 대역통과 필터링을 하였다. 잡음환경에서 발성된 롬바드 음성의 분석 및 잡음처리 기술의 개발과 평가를 위해, 음성인식 기술의 적용이 예상되는 자동차, 전시장, 시내 공중전화 부스, 거리, 전산실 잡음을 이용하여 롬바드 음성을 수집하여 실험하였다. 제안한 방법을 여러 가지 잡음환경하에서 음성인식에 적용한 결과, 효과적인 잡음처리 방법임을 확인할 수 있었다. This paper describes Lombard effect compensation and noise suppression so as to reduce speech recognition error in noisy environments. Lombard effect is represented by the variation of spectral envelope of energy normalized word and the variation of overall vocal intensity. The variation of spectral envelope can be compensated by linear transformation in cepstral domain. The variation of vocal intensity is canceled by spectral magnitude normalization. Spectral subtraction is use to suppress noise contamination, and band-pass filtering is used to emphasize dynamic features. To understand Lombard effect and verify the effectiveness of the proposed method, speech data are collected in simulated noisy environments. Recognition experiments were conducted with contamination by noise from automobile cabins, an exhibition hall, telephone booths in down town, crowded streets, and computer rooms. From the experiments, the effectiveness of the proposed method has been confirmed.
Eigenvoice 병합을 이용한 연속 음성 인식 시스템의 고속 화자 적응
최동진,오영환,Choi, Dong-Jin,Oh, Yung-Hwan 대한음성학회 2005 말소리 Vol.53 No.-
Speaker adaptation in eigenvoice space is a popular method for rapid speaker adaptation. To improve the performance of the method, the number of speaker dependent models should be increased and eigenvoices should be re-estimated. However, principal component analysis takes much time to find eigenvoices, especially in a continuous speech recognition system. This paper describes a method to reduce computation time to estimate eigenvoices only for supplementary speaker dependent models and to merge them with the used eigenvoices. Experiment results show that the computation time is reduced by 73.7% while the performance is almost the same in case that the number of speaker dependent models is the same as used ones.
음성인식을 위한 은닉 마르코프 모델에서 엔트로피에 기반한 상태별 특징 파라미터 가중
최환진(Hwan Jin Choi),오영환(Yung Hwan Oh) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.2
본 논문에서는 음성인식을 위해서 DHMM을 변형한 퍼지기반 특징 파라미터 가중(FFW fuzzy based feature-parameter weighting) DHMM을 제안한다. FFW-DHMM 에서 출력확률은 특징 파라미터에 대한 퍼지가중과 상대 모델링에 의해서 추정된다. 일반적인 DHMM에서, 출력확률 자체는 각 상태에서 상태 의존 특징 파라미터의 중요도를 반영하지 않고 있다. 출력확률에 대한 각 특징 파라미터의 기여도는 상태별로 다르며, 그려한 차이가 출력확률에 대한 각 특징 파라미터의 중요도를 나타낸다. 각 상태별로 유효한 특징파라미터의 중요도를 구하기 위해서, 각 특징 파라미터에 대한 출력분포에 대한 엔트로피 값을 사용하며, 계산된 엔트로피 값에 퍼지함수를 적용하여 얻어진 값을 각 특징 파라미터에 대한 가중치 요소로 사용한다. 이러한 상태별 특징 파라미터의 가중치 이외에, 각 상태의 중요도를 FFW-DHMM의 출력확률에 반영한다. 실험결과, 제안된 방법이 기존의 DHMM 에 비해 1.4% 향상된 결과를 나타내었으며, 출력확률 계산 시 상태 가중 방법을 적용한 결과 2.1%의 성능향상을 얻을 수 있었다. 이러한 결과는 제안된 상태 의존 특징 파라미터 가중과 상태 가중의 사용이 향상성 인식율을 얻는데 주요하며, 결과적으로 제안된 방법이 HMM을 위한 강인한 출력확률의 추정을 위한 대안으로 유용함을 보여준다고 할 수 있다. In this paper, we propose a new variant of DHMM(discrete hidden Markov model), fuzzy based feature-parameter weighting DHMM for speech recognition, in which the output probability is estimated by fuzzy weighting of the feature parameter and the state modeling. In the conventional DHMM, the output probability itself does not reflect the importance of state dependent feature parameters at a state. The contribution of each feature parameter for the output probability is different at each state, and those differences represent the degree of importance with which the feature parameter affects the output probability. To derive the importance of feature parameters at a state, the entropy of an output distribution for each feature parameter is used, and the a fuzzy function is applied to transform the entropy value into a feature-parameter weighting factor. Besides the state-dependent feature-parameter weighting by a fuzzy function, the importance of a state is also reflected to the computation of an output probability in the FFW-DHMM. From experimental results, the proposed method has shown an improvement of 1.4% over the conventional DHMM, and a 2.1% improvement when the state weighting is applied to the computation of an output probability. These results indicate that the use of state-dependent feature-parameter weighting and state weighting to the DHMM lead to improved recognition, and therefore it may be used as an alternative to the robust estimation of output probabilities for HMMs.
MMSE Estimator 기반의 적응 콤 필터링을 이용한 잡음 제거
박정식,오영환,Park, Jeong-Sik,Oh, Yung-Hwan 대한음성학회 2006 말소리 Vol.60 No.-
This paper describes a speech enhancement scheme that leads to significant improvements in recognition performance when used in the ASR front-end. The proposed approach is based on adaptive comb filtering and an MMSE-related parameter estimator. While adaptive comb filtering reduces noise components remarkably, it is rarely effective in reducing non-stationary noises. Furthermore, due to the uniformly distributed frequency response of the comb-filter, it can cause serious distortion to clean speech signals. This paper proposes an improved comb-filter that adjusts its spectral magnitude to the original speech, based on the speech absence probability and the gain modification function. In addition, we introduce the modified comb filtering-based speech enhancement scheme for ASR in mobile environments. Evaluation experiments carried out using the Aurora 2 database demonstrate that the proposed method outperforms conventional adaptive comb filtering techniques in both clean and noisy environments.
부분 손상된 음성의 인식성능 향상을 위한 가중 필터뱅크 분석 및 모델 적응
조훈영,오영환,Cho Hoon-Young,Oh Yung-Hwan 대한음성학회 2002 말소리 Vol.44 No.-
We propose a weighted filter bank analysis and model adaptation (WFBA-MA) scheme to improve the utilization of uncorrupted or less severely corrupted frequency regions for robust speech recognition. A weighted met frequency cepstral coefficient is obtained by weighting log filter bank energies with reliability coefficients and hidden Markov models are also modified to reflect the local reliabilities. Experimental results on TIDIGITS database corrupted by band-limited noises and car noise indicated that the proposed WFBA-MA scheme utilizes the uncorrupted speech information well, significantly improving recognition performance in comparison to multi-band speech recognition systems.