RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 부가 주성분분석을 이용한 미지의 환경에서의 화자식별

        유하진,Yu, Ha-Jin 대한음성학회 2005 말소리 Vol.54 No.-

        The goal of our research is to build a text-independent speaker identification system that can be used in any condition without any additional adaptation process. The performance of speaker recognition systems can be severely degraded in some unknown mismatched microphone and noise conditions. In this paper, we show that PCA(principal component analysis) can improve the performance in the situation. We also propose an augmented PCA process, which augments class discriminative information to the original feature vectors before PCA transformation and selects the best direction for each pair of highly confusable speakers. The proposed method reduced the relative recognition error by 21%.

      • KCI우수등재

        불균일 인식 단위를 이용한 연속음성인식 퍼지 전문가 시스템

        유하진(Hajin Yu),오영환(Yung Hwan Oh) 한국정보과학회 1995 정보과학회논문지 Vol.22 No.1

        자유롭게 발성된 연속음성을 인식하기 위한 지식기반 음성인식 시스템을 설계하고 구현하였다. 다어휘 연속음성인식에서의 조음결합의 문제와 대량의 자료처리의 문제를 동시에 해결하기 위하여, 종래에 주로 사용되어 오던 단어와 음소단위의 장점을 동시에 살린 새로운 인식단위를 제안하였다. 제안된 인식단위의 구조에 따라 규칙의 구조를 정의하며, 자동적으로 음성인식 규칙을 작성하도록 하였다. 또한, 퍼지 언어변수를 사용함으로써 기존의 지식기반 음성인식 시스템에서 규칙의 작성을 위해 주로 사용해 온 임계값의 단점을 해결하였다. 정의된 인식단위의 제약조건을 이용하여 후처리를 함으로써 시스템의 성능을 크게 향상시킬 수 있었다. 구현된 시스템을 세가지의 음성자료를 이용하여 실험한 결과, 퍼지를 도입한 규칙의 형태가 시스템의 성능을 향상시키며, 단위의 성질을 이용한 후처리가 유효함을 알 수 있었다. In designing a speech recognition expert system for spontaneous speech, we need a new recognition unit that can cope with the co-articulation effects effectively. In this paper, we propose a new recognition unit based on the spectral transition measure. We also consider the relations between the recognition unit, the rule structure to recognize the unit, and the boundary conditions derived from the unit. We introduced the non-uniform unit, which is very helpful for solving problems in a highly co-articulated data. The unit consists of arbitrary number of phonemes, and every unit has its stationary point at each end of the unit, and transient part in the middle. The structure of the rules for phoneme recognition is designed according to the structure of the unit. Frames are used for representing speech recognition rules. In the rules, the parameter trajectory is described by symbolic representation and fuzzy linguistic variables. We use boundary conditions of the unit to refine the recognition result and to acquire a proper phoneme sequence. The system is tested with three corpora of continuous Korean speech, and the number of units and the recognition performance are investigated.

      • 퍼지 이론과 동적정합법을 사용한 프로그램 음성입력 시스템

        유하진(Yu Hajin),오영환(Oh Yung Hwan) 한국정보과학회 1991 한국정보과학회 학술발표논문집 Vol.18 No.1

        본 논문에서는 한글 베이직 언어의 단어를 음성으로 입력하는 시스템의 설계 및 구현에 대하여 논의한다. 특징 파라미터로는 포만트 주파수를 주로 사용하며, 자료의 표현과 패턴정합에 퍼지 이론과 동적정합법(dynamic time warping)을 적용하였다. 표준패턴으로 사용하는 소속함수(membership function)의 작성과정에서 길이가 서로 다른 여러개의 자료를 중첩할 때 선형신축(linear scaling)에 의한 비정합(mismatch)이 발생하기 쉽다. 이러한 문제점을 개선하기 위하여, 동적정합법을 이용, 두 자료패턴을 비교하여 정합되는 프레임을 찾아 중첩시키는 표준패턴 자동 작성 방법을 제안하였다. 이 방법으로 임의의 수의 자료패턴을 중첩시켜 표준패턴을 자동으로 작성할 수 있어, 음성의 경시변화에도 응용할 수 있을 것으로 기대한다.

      • Greedy Kernel PCA를 이용한 화자식별

        김민석,양일호,유하진,Kim, Min-Seok,Yang, Il-Ho,Yu, Ha-Jin 대한음성학회 2008 말소리 Vol.66 No.-

        In this research, we propose a speaker identification system using a kernel method which is expected to model the non-linearity of speech features well. We have been using principal component analysis (PCA) successfully, and extended to kernel PCA, which is used for many pattern recognition tasks such as face recognition. However, we cannot use kernel PCA for speaker identification directly because the storage required for the kernel matrix grows quadratically, and the computational cost grows linearly (computing eigenvector of $l{\times}l$ matrix) with the number of training vectors I. Therefore, we use greedy kernel PCA which can approximate kernel PCA with small representation error. In the experiments, we compare the accuracy of the greedy kernel PCA with the baseline Gaussian mixture models using MFCCs and PCA. As the results with limited enrollment data show, the greedy kernel PCA outperforms conventional methods.

      • KCI등재

        다수 투표 기반의 화자 식별을 위한 배경 화자 데이터의 퍼지 C-Means 중심을 이용한 히스토그램 등화기법

        김명재,양일호,유하진,Kim, Myung-Jae,Yang, Il-Ho,Yu, Ha-Jin 한국음향학회 2014 韓國音響學會誌 Vol.33 No.1

        이전 연구에서 퍼지 C-Means의 중심 데이터로 이루어진 보조 데이터를 이용한 히스토그램 등화기법을 제안하였다. 보조 데이터를 이용한 히스토그램 등화기법은 사용하는 참조 집합의 크기에 따라 화자 식별 성능에 영향을 받는다. 그러나 인식 시점에서 최적의 파라미터를 찾기는 어렵다. 이 문제를 해결하기 위해 본 논문에서는 화자 식별을 위한 다수 투표 방식에 기반을 둔 보조 데이터를 이용한 히스토그램 등화기법을 제안한다. 다수 투표 기반의 제안한 방법은 여러 종류의 보조 데이터를 이용한 히스토그램 등화기법으로 입력 음성을 분류한다. 본 연구에서 제안한 방법을 CMN(Cepstral Mean Normalization), MVN(Mean and Variance Normalization), HEQ(Histogram Equalization)와 같은 기존의 특징 정규화 방법 및 보조 데이터를 이용한 히스토그램 등화기법과 비교한다. In a previous work, we proposed a novel approach of histogram equalization using a supplement set which is composed of centroids of Fuzzy C-Means of the background utterances. The performance of the proposed method is affected by the size of the supplement set, but it is difficult to find the best size at the point of recognition. In this paper, we propose a histogram equalization using a supplement set for majority voting based speaker identification. The proposed method identifies test utterances using a majority voting on the histogram equalization methods with various sizes of supplement sets. The proposed method is compared with the conventional feature normalization methods such as CMN(Cepstral Mean Normalization), MVN(Mean and Variance Normalization), and HEQ(Histogram Equalization) and the histogram equalization method using a supplement set.

      • 대각공분산 GMM에 최적인 선형변환을 이용한 강인한 화자식별

        김민석,양일호,유하진,Kim, Min-Seok,Yang, Il-Ho,Yu, Ha-Jin 대한음성학회 2008 말소리 Vol.65 No.-

        We have been building a text-independent speaker recognition system that is robust to unknown channel and noise environments. In this paper, we propose a linear transformation to obtain robust features. The transformation is optimized to maximize the distances between the Gaussian mixtures. We use rotation of the axes, to cope with the problem of scaling the transformation matrix. The proposed transformation is similar to PCA or LDA, but can achieve better result in some special cases where PCA and LDA can not work properly. We use YOHO database to evaluate the proposed method and compare the result with PCA and LDA. The results show that the proposed method outperforms all the baseline, PCA and LDA.

      • KCI등재

        가변 길이 입력 발성에서의 화자 인증 성능 향상을 위한 통합된 수용 영역 다양화 기법

        신현서,김주호,허정우,심혜진,유하진,Shin, Hyun-seo,Kim, Ju-ho,Heo, Jungwoo,Shim, Hye-jin,Yu, Ha-Jin 한국음향학회 2022 韓國音響學會誌 Vol.41 No.3

        화자 인증 시스템에서 입력 발성 길이의 변화는 성능을 하락시킬 수 있는 대표적인 요인이다. 이러한 문제점을 개선하기 위해, 몇몇 연구에서는 시스템 내부의 특징 가공 과정을 여러가지 서로 다른 경로에서 수행하거나 서로 다른 수용 영역(Receptive Field)을 가진 합성곱 계층을 활용하여 다양한 화자 특징을 추출하였다. 이러한 연구에 착안하여, 본 연구에서는 가변 길이 입력 발성을 처리하기 위해 보다 다양한 수용 영역에서 화자 정보를 추출하고 이를 선택적으로 통합하는 통합된 수용 영역 다양화 기법을 제안한다. 제안한 통합 기법은 입력된 특징을 여러가지 서로 다른 경로에서 다른 수용 영역을 가진 합성곱 계층으로 가공하며, 가공된 특징을 입력 발성의 길이에 따라 동적으로 통합하여 화자 특징을 추출한다. 본 연구의 심층신경망은 VoxCeleb2 데이터세트로 학습되었으며, 가변 길이 입력 발성에 대한 성능을 확인하기 위해 VoxCeleb1 평가 데이터 세트를 1 s, 2 s, 5 s 길이로 자른 발성과 전체 길이 발성에 대해 각각 평가를 수행하였다. 실험 결과, 통합된 수용 영역 다양화 기법이 베이스라인 대비 동일 오류율을 평균적으로 19.7 % 감소시켜, 제안한 기법이 가변 길이 입력 발성에 의한 성능 저하를 개선할 수 있음을 확인하였다.

      • KCI등재

        짧은 음성을 대상으로 하는 화자 확인을 위한 심층 신경망

        양일호,허희수,윤성현,유하진,Yang, IL-Ho,Heo, Hee-Soo,Yoon, Sung-Hyun,Yu, Ha-Jin 한국음향학회 2016 韓國音響學會誌 Vol.35 No.6

        본 논문에서는 짧은 테스트 발성에 대한 화자 확인 성능을 개선하는 방법을 제안한다. 테스트 발성의 길이가 짧을 경우 i-벡터/확률적 선형판별분석 기반 화자 확인 시스템의 성능이 하락한다. 제안한 방법은 짧은 발성으로부터 추출한 특징 벡터를 심층 신경망으로 변환하여 발성 길이에 따른 변이를 보상한다. 이 때, 학습시의 출력 레이블에 따라 세 종류의 심층 신경망 이용 방법을 제안한다. 각 신경망은 입력 받은 짧은 발성 특징에 대한 출력 결과와 원래의 긴 발성으로부터 추출한 특징과의 차이를 줄이도록 학습한다. NIST (National Institute of Standards Technology, 미국) 2008 SRE(Speaker Recognition Evaluation) 코퍼스의 short 2-10 s 조건 하에서 제안한 방법의 성능을 평가한다. 실험 결과 부류 내 분산 정규화 및 선형 판별 분석을 이용하는 기존 방법에 비해 최소 검출 비용이 감소하는 것을 확인하였다. 또한 짧은 발성 분산 정규화 기반 방법과도 성능을 비교하였다. We propose a method to improve the robustness of speaker verification on short test utterances. The accuracy of the state-of-the-art i-vector/probabilistic linear discriminant analysis systems can be degraded when testing utterance durations are short. The proposed method compensates for utterance variations of short test feature vectors using deep neural networks. We design three different types of DNN (Deep Neural Network) structures which are trained with different target output vectors. Each DNN is trained to minimize the discrepancy between the feed-forwarded output of a given short utterance feature and its original long utterance feature. We use short 2-10 s condition of the NIST (National Institute of Standards Technology, U.S.) 2008 SRE (Speaker Recognition Evaluation) corpus to evaluate the method. The experimental results show that the proposed method reduces the minimum detection cost relative to the baseline system.

      • KCI등재

        문장 독립 화자 인증을 위한 세그멘트 단위 혼합 계층 심층신경망

        허정우,심혜진,김주호,유하진,Heo, Jungwoo,Shim, Hye-jin,Kim, Ju-ho,Yu, Ha-Jin 한국음향학회 2021 韓國音響學會誌 Vol.40 No.2

        Text-Independent speaker verification needs to extract text-independent speaker embedding to improve generalization performance. However, deep neural networks that depend on training data have the potential to overfit text information instead of learning the speaker information when repeatedly learning from the identical time series. In this paper, to prevent the overfitting, we propose a segment unit shuffling layer that divides and rearranges the input layer or a hidden layer along the time axis, thus mixes the time series information. Since the segment unit shuffling layer can be applied not only to the input layer but also to the hidden layers, it can be used as generalization technique in the hidden layer, which is known to be effective compared to the generalization technique in the input layer, and can be applied simultaneously with data augmentation. In addition, the degree of distortion can be adjusted by adjusting the unit size of the segment. We observe that the performance of text-independent speaker verification is improved compared to the baseline when the proposed segment unit shuffling layer is applied.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼