http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
특징 강화 기법과 학습 데이터 길이 조절에 의한 Supervector Linear Kernel SVM 화자식별 개선
소병민,김경화,김민석,양일호,김명재,유하진,So, Byung-Min,Kim, Kyung-Wha,Kim, Min-Seok,Yang, Il-Ho,Kim, Myung-Jae,Yu, Ha-Jin 한국음향학회 2011 韓國音響學會誌 Vol.30 No.6
본 논문에서는 supervector linear kernel SVM을 사용한 화자식별 시스템의 성능을 개선하는 방법을 제안하였다. 제안한 방법은 긴 학습 데이터를 여러 개의 짧은 학습 데이터로 분할하는 것을 기본 아이디어로 하고 있다. 제안한 방법의 성능을 평가하기 위해 서로 다른 4가지 데이터베이스에 PCA, GKPCA, KMDA를 사용하여 특징 강화를 하고 실험한 뒤 결과를 분석하였다. 실험 결과 제안한 방법이 supervector linear kernel SVM을 사용한 화자 식별 성능을 향상 시키는 것을 확인하였다. In this paper, we propose a new method to improve the performance of supervector linear kernel SVM (Support Vector Machine) for speaker identification. This method is based on splitting one training datum into several pieces of utterances. We use four different databases for evaluating performance and use PCA (Principal Component Analysis), GKPCA (Greedy Kernel PCA) and KMDA (Kernel Multimodal Discriminant Analysis) for feature enhancement. As a result, the proposed method shows improved performance for speaker identification using supervector linear kernel SVM.
허희수,소병민,양일호,윤성현,유하진,Heo, Hee-Soo,So, Byung-Min,Yang, IL-Ho,Yoon, Sung-Hyun,Yu, Ha-Jin 한국음향학회 2017 韓國音響學會誌 Vol.36 No.2
본 논문에서는 심층 신경망을 이용하여 손상된 음성파일을 복원하는 방법을 제안한다. 본 논문에서 다루는 음성파일 복원은 기존의 파일 카빙(file carving) 기반의 복원과는 다른 개념으로, 기존 기법으로는 복원할 수 없었던 손실된 정보를 복원하는 것이 목적이다. 새로운 복원 기법을 수행하는 과정에서 필요한 작업이지만 사람이 직접 수행할 수 없거나 너무 많은 시간이 소요되는 작업을 심층 신경망을 활용해 자동화할 수 있는 방안을 제안하였으며 관련한 실험을 진행하였다. 실험 결과, 심층 신경망을 활용해 음성, 비음성 분류나 음성파일 부호화 방식의 식별이 가능해 기존 파일 카빙 기반 방법이 복원하지 못하는 파일을 복원할 수 있었다. In this paper, we propose a method for restoring damaged audio files using deep neural network. It is different from the conventional file carving based restoration. The purpose of our method is to infer lost information which can not be restored by existing techniques such as the file carving. We have devised methods that can automate the tasks which are essential for the restoring but are inappropriate for humans. As a result of this study it has been shown that it is possible to restore the damaged files, which the conventional file carving method could not, by using tasks such as speech or nonspeech decision and speech encoder recognizer using a deep neural network.
커널 주성분 분석의 앙상블을 이용한 다양한 환경에서의 화자 식별
양일호,김민석,소병민,김명재,유하진,Yang, Il-Ho,Kim, Min-Seok,So, Byung-Min,Kim, Myung-Jae,Yu, Ha-Jin 한국음향학회 2012 韓國音響學會誌 Vol.31 No.3
본 논문에서는 커널 주성분 분석 (KPCA, kernel principal component analysis)으로 강화한 화자 특징을 이용하여 복수의 분류기를 학습하고 이를 앙상블 결합하는 화자 식별 방법을 제안한다. 이 때, 계산량과 메모리 요구량을 줄이기 위해 전체 화자 특징 벡터 중 일부를 랜덤 선택하여 커널 주성분 분석의 기저를 추정한다. 실험 결과, 제안한 방법이 그리디 커널 주성분 분석 (GKPCA, greedy kernel principal component analysis)보다 높은 화자 식별률을 보였다. In this paper, we propose a new approach to speaker identification technique which uses an ensemble of multiple classifiers (speaker identifiers). KPCA (kernel principal component analysis) enhances features for each classifier. To reduce the processing time and memory requirements, we select limited number of samples randomly which are used as estimation set for each KPCA basis. The experimental result shows that the proposed approach gives a higher identification accuracy than GKPCA (greedy kernel principal component analysis).
음성 주파수 분포 분석을 통한 편집 의심 지점 검출 방법
허희수(Heo, Hee-Soo),소병민(So, Byung-Min),양일호(Yang, IL-Ho),유하진(Yu, Ha-Jin) 한국음성학회 2015 말소리와 음성과학 Vol.7 No.4
We propose a speech waveform forgery detection algorithm based on the flatness of frequency distribution. We devise a new measure of flatness which emphasizes the local change of the frequency distribution. Our measure calculates the sum of the differences between the energies of neighboring frequency bands. We compare the proposed measure with conventional flatness measures using a set of a large amount of test sounds. We also compare- the proposed method with conventional detection algorithms based on spectral distances. The results show that the proposed method gives lower equal error rate for the test set compared to the conventional methods.
양일호(Yang IL-Ho),김민석(Kim Min-Seok),소병민(So Byung-Min),김명재(Kim Myung-Jae),유하진(Yu Ha-Jin) 한국음성학회 2011 말소리와 음성과학 Vol.3 No.2
In this paper, we propose an approach which constructs classifier ensembles of various channel compensation and feature enhancement methods. CMN and CMVN are used as channel compensation methods. PCA, kernel PCA, greedy kernel PCA, and kernel multimodal discriminant analysis are used as feature enhancement methods. The proposed ensemble system is constructed with the combination of 15 classifiers which include three channel compensation methods (including ‘without compensation’) and five feature enhancement methods (including ‘without enhancement’). Experimental results show that the proposed ensemble system gives highest average speaker identification rate in various environments (channels, noises, and sessions).