http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
특징 강화 기법과 학습 데이터 길이 조절에 의한 Supervector Linear Kernel SVM 화자식별 개선
소병민,김경화,김민석,양일호,김명재,유하진,So, Byung-Min,Kim, Kyung-Wha,Kim, Min-Seok,Yang, Il-Ho,Kim, Myung-Jae,Yu, Ha-Jin 한국음향학회 2011 韓國音響學會誌 Vol.30 No.6
본 논문에서는 supervector linear kernel SVM을 사용한 화자식별 시스템의 성능을 개선하는 방법을 제안하였다. 제안한 방법은 긴 학습 데이터를 여러 개의 짧은 학습 데이터로 분할하는 것을 기본 아이디어로 하고 있다. 제안한 방법의 성능을 평가하기 위해 서로 다른 4가지 데이터베이스에 PCA, GKPCA, KMDA를 사용하여 특징 강화를 하고 실험한 뒤 결과를 분석하였다. 실험 결과 제안한 방법이 supervector linear kernel SVM을 사용한 화자 식별 성능을 향상 시키는 것을 확인하였다. In this paper, we propose a new method to improve the performance of supervector linear kernel SVM (Support Vector Machine) for speaker identification. This method is based on splitting one training datum into several pieces of utterances. We use four different databases for evaluating performance and use PCA (Principal Component Analysis), GKPCA (Greedy Kernel PCA) and KMDA (Kernel Multimodal Discriminant Analysis) for feature enhancement. As a result, the proposed method shows improved performance for speaker identification using supervector linear kernel SVM.
김경화,소병민,유하진 한국음성학회 2012 말소리와 음성과학 Vol.4 No.3
In this paper, we introduce the automatic speaker identification system ‘SPO(Supreme Prosecutors Office) Verifier’. SPO Verifier is a GMM(Gaussian mixture model)-UBM(universal background model) based automatic speaker recognition system and has been developed using Korean speakers’ utterances. This system uses a channel compensation algorithm to compensate recording device characteristics. The system can give the users the ability to manage reference models with utterances from various environments to get more accurate recognition results. To evaluate the performance of SPO Verifier on Korean speakers, we compared this system with one of the most widely used commercial systems in the forensic field. The results showed that SPO Verifier shows lower EER(equal error rate) than that of the commercial system.
허희수,소병민,양일호,윤성현,유하진,Heo, Hee-Soo,So, Byung-Min,Yang, IL-Ho,Yoon, Sung-Hyun,Yu, Ha-Jin 한국음향학회 2017 韓國音響學會誌 Vol.36 No.2
본 논문에서는 심층 신경망을 이용하여 손상된 음성파일을 복원하는 방법을 제안한다. 본 논문에서 다루는 음성파일 복원은 기존의 파일 카빙(file carving) 기반의 복원과는 다른 개념으로, 기존 기법으로는 복원할 수 없었던 손실된 정보를 복원하는 것이 목적이다. 새로운 복원 기법을 수행하는 과정에서 필요한 작업이지만 사람이 직접 수행할 수 없거나 너무 많은 시간이 소요되는 작업을 심층 신경망을 활용해 자동화할 수 있는 방안을 제안하였으며 관련한 실험을 진행하였다. 실험 결과, 심층 신경망을 활용해 음성, 비음성 분류나 음성파일 부호화 방식의 식별이 가능해 기존 파일 카빙 기반 방법이 복원하지 못하는 파일을 복원할 수 있었다. In this paper, we propose a method for restoring damaged audio files using deep neural network. It is different from the conventional file carving based restoration. The purpose of our method is to infer lost information which can not be restored by existing techniques such as the file carving. We have devised methods that can automate the tasks which are essential for the restoring but are inappropriate for humans. As a result of this study it has been shown that it is possible to restore the damaged files, which the conventional file carving method could not, by using tasks such as speech or nonspeech decision and speech encoder recognizer using a deep neural network.
화자 식별에서의 배경화자데이터를 이용한 히스토그램 등화 기법
김명재,양일호,소병민,김민석,유하진 한국음성학회 2012 말소리와 음성과학 Vol.4 No.2
In this paper, we propose a novel approach to improve histogram equalization for speaker identification. Our method collects all speech features of UBM training data to make a reference distribution. The ranks of the feature vectors are calculated in the sorted list of the collection of the UBM training data and the test data. We use the ranks to perform order-based histogram equalization. The proposed method improves the accuracy of the speaker recognition system with short utterances. We use four kinds of speech databases to evaluate the proposed speaker recognition system and compare the system with cepstral mean normalization (CMN), mean and variance normalization (MVN), and histogram equalization (HEQ). Our system reduced the relative error rate by 33.3% from the baseline system.
커널 주성분 분석의 앙상블을 이용한 다양한 환경에서의 화자 식별
양일호,김민석,소병민,김명재,유하진,Yang, Il-Ho,Kim, Min-Seok,So, Byung-Min,Kim, Myung-Jae,Yu, Ha-Jin 한국음향학회 2012 韓國音響學會誌 Vol.31 No.3
본 논문에서는 커널 주성분 분석 (KPCA, kernel principal component analysis)으로 강화한 화자 특징을 이용하여 복수의 분류기를 학습하고 이를 앙상블 결합하는 화자 식별 방법을 제안한다. 이 때, 계산량과 메모리 요구량을 줄이기 위해 전체 화자 특징 벡터 중 일부를 랜덤 선택하여 커널 주성분 분석의 기저를 추정한다. 실험 결과, 제안한 방법이 그리디 커널 주성분 분석 (GKPCA, greedy kernel principal component analysis)보다 높은 화자 식별률을 보였다. In this paper, we propose a new approach to speaker identification technique which uses an ensemble of multiple classifiers (speaker identifiers). KPCA (kernel principal component analysis) enhances features for each classifier. To reduce the processing time and memory requirements, we select limited number of samples randomly which are used as estimation set for each KPCA basis. The experimental result shows that the proposed approach gives a higher identification accuracy than GKPCA (greedy kernel principal component analysis).