RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        심층 신경망을 활용한 손상된 음성파일 복원 자동화

        허희수,소병민,양일호,윤성현,유하진,Heo, Hee-Soo,So, Byung-Min,Yang, IL-Ho,Yoon, Sung-Hyun,Yu, Ha-Jin 한국음향학회 2017 韓國音響學會誌 Vol.36 No.2

        본 논문에서는 심층 신경망을 이용하여 손상된 음성파일을 복원하는 방법을 제안한다. 본 논문에서 다루는 음성파일 복원은 기존의 파일 카빙(file carving) 기반의 복원과는 다른 개념으로, 기존 기법으로는 복원할 수 없었던 손실된 정보를 복원하는 것이 목적이다. 새로운 복원 기법을 수행하는 과정에서 필요한 작업이지만 사람이 직접 수행할 수 없거나 너무 많은 시간이 소요되는 작업을 심층 신경망을 활용해 자동화할 수 있는 방안을 제안하였으며 관련한 실험을 진행하였다. 실험 결과, 심층 신경망을 활용해 음성, 비음성 분류나 음성파일 부호화 방식의 식별이 가능해 기존 파일 카빙 기반 방법이 복원하지 못하는 파일을 복원할 수 있었다. In this paper, we propose a method for restoring damaged audio files using deep neural network. It is different from the conventional file carving based restoration. The purpose of our method is to infer lost information which can not be restored by existing techniques such as the file carving. We have devised methods that can automate the tasks which are essential for the restoring but are inappropriate for humans. As a result of this study it has been shown that it is possible to restore the damaged files, which the conventional file carving method could not, by using tasks such as speech or nonspeech decision and speech encoder recognizer using a deep neural network.

      • KCI등재

        음성 주파수 분포 분석을 통한 편집 의심 지점 검출 방법

        허희수(Heo, Hee-Soo),소병민(So, Byung-Min),양일호(Yang, IL-Ho),유하진(Yu, Ha-Jin) 한국음성학회 2015 말소리와 음성과학 Vol.7 No.4

        We propose a speech waveform forgery detection algorithm based on the flatness of frequency distribution. We devise a new measure of flatness which emphasizes the local change of the frequency distribution. Our measure calculates the sum of the differences between the energies of neighboring frequency bands. We compare the proposed measure with conventional flatness measures using a set of a large amount of test sounds. We also compare- the proposed method with conventional detection algorithms based on spectral distances. The results show that the proposed method gives lower equal error rate for the test set compared to the conventional methods.

      • KCI등재

        짧은 음성을 대상으로 하는 화자 확인을 위한 심층 신경망

        양일호,허희수,윤성현,유하진,Yang, IL-Ho,Heo, Hee-Soo,Yoon, Sung-Hyun,Yu, Ha-Jin 한국음향학회 2016 韓國音響學會誌 Vol.35 No.6

        본 논문에서는 짧은 테스트 발성에 대한 화자 확인 성능을 개선하는 방법을 제안한다. 테스트 발성의 길이가 짧을 경우 i-벡터/확률적 선형판별분석 기반 화자 확인 시스템의 성능이 하락한다. 제안한 방법은 짧은 발성으로부터 추출한 특징 벡터를 심층 신경망으로 변환하여 발성 길이에 따른 변이를 보상한다. 이 때, 학습시의 출력 레이블에 따라 세 종류의 심층 신경망 이용 방법을 제안한다. 각 신경망은 입력 받은 짧은 발성 특징에 대한 출력 결과와 원래의 긴 발성으로부터 추출한 특징과의 차이를 줄이도록 학습한다. NIST (National Institute of Standards Technology, 미국) 2008 SRE(Speaker Recognition Evaluation) 코퍼스의 short 2-10 s 조건 하에서 제안한 방법의 성능을 평가한다. 실험 결과 부류 내 분산 정규화 및 선형 판별 분석을 이용하는 기존 방법에 비해 최소 검출 비용이 감소하는 것을 확인하였다. 또한 짧은 발성 분산 정규화 기반 방법과도 성능을 비교하였다. We propose a method to improve the robustness of speaker verification on short test utterances. The accuracy of the state-of-the-art i-vector/probabilistic linear discriminant analysis systems can be degraded when testing utterance durations are short. The proposed method compensates for utterance variations of short test feature vectors using deep neural networks. We design three different types of DNN (Deep Neural Network) structures which are trained with different target output vectors. Each DNN is trained to minimize the discrepancy between the feed-forwarded output of a given short utterance feature and its original long utterance feature. We use short 2-10 s condition of the NIST (National Institute of Standards Technology, U.S.) 2008 SRE (Speaker Recognition Evaluation) corpus to evaluate the method. The experimental results show that the proposed method reduces the minimum detection cost relative to the baseline system.

      • KCI등재

        교사 학생 심층신경망을 활용한 다채널 원거리 화자 인증

        정지원,허희수,심혜진,유하진,Jung, Jee-weon,Heo, Hee-Soo,Shim, Hye-jin,Yu, Ha-Jin 한국음향학회 2018 韓國音響學會誌 Vol.37 No.6

        원거리 발성은 화자 인증 시스템의 성능을 하락시키는 주요 요인으로 알려져 있다. 본 논문에서는 교사 학생 학습을 이용하여 원거리 발성에 의한 화자 인증 시스템의 성능 하락을 보상하는 기법을 제안한다. 교사 학생 학습은 미리 학습된 교사 심층신경망의 출력과 학생 신경망의 출력이 같아지도록 학생 신경망을 학습하는 기법이다. 여기서 교사 신경망에는 근거리 발성을, 학생 신경망에는 원거리 발성을 입력한 뒤, 두 신경망의 출력을 동일하게 만드는 과정을 통해 원거리 발성을 보상할 수 있을 것이라고 기대하였다. 하지만 원거리 발성을 보상하는 과정에서, 근거리 발성에 대한 인식률이 저하되는 현상을 실험적으로 발견하였다. 위와 같은 현상을 예방하기 위해 본 논문에서는 교사 심층신경망을 학생 심층신경망의 초깃값으로 사용하는 기법과 학생 심층신경망을 근거리 발성에 대해서도 학습하는 기법을 제안하였다. 모든 실험은 원 음성을 입력 받는 심층신경망을 활용해 수행하였다. 동일한 발성을 각각 4 채널로 근거리와 원거리에서 자체적으로 수집한 문장 종속 데이터셋을 활용하였다. 동일 오류율을 기준으로 근거리 / 원거리 발성에 대한 화자 인증 성능을 평가한 결과 교사 학생 학습을 사용하지 않을 경우 2.55 % / 2.8 %, 기존의 교사 학생 학습을 사용할 경우 9.75 % / 1.8 %, 제안한 기법들을 적용한 경우 2.5 % / 2.7 %의 오류율을 확인하였다. Far field input utterance is one of the major causes of performance degradation of speaker verification systems. In this study, we used teacher student learning framework to compensate for the performance degradation caused by far field utterances. Teacher student learning refers to training the student deep neural network in possible performance degradation condition using the teacher deep neural network trained without such condition. In this study, we use the teacher network trained with near distance utterances to train the student network with far distance utterances. However, through experiments, it was found that performance of near distance utterances were deteriorated. To avoid such phenomenon, we proposed techniques that use trained teacher network as initialization of student network and training the student network using both near and far field utterances. Experiments were conducted using deep neural networks that input raw waveforms of 4-channel utterances recorded in both near and far distance. Results show the equal error rate of near and far-field utterances respectively, 2.55 % / 2.8 % without teacher student learning, 9.75 % / 1.8 % for conventional teacher student learning, and 2.5 % / 2.7 % with proposed techniques.

      • KCI등재

        멀티태스크 러닝 심층신경망을 이용한 화자인증에서의 나이 정보 활용

        김주호,허희수,정지원,심혜진,김승빈,유하진,Kim, Ju-ho,Heo, Hee-Soo,Jung, Jee-weon,Shim, Hye-jin,Kim, Seung-Bin,Yu, Ha-Jin 한국음향학회 2019 韓國音響學會誌 Vol.38 No.5

        화자 간 음색의 유사성은 화자 인증 시스템의 성능을 하락 시킬 수 있는 요인이다. 본 논문은 화자 인증 시스템의 일반화 성능을 향상시키기 위해, 심층신경망에 멀티태스크 러닝 기법을 적용시켜 발화자의 화자 정보와 나이 정보를 함께 학습 시키는 기법을 제안한다. 멀티태스크 러닝 기법은 은닉층들이 하나의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능을 향상시킨다고 알려져 있다. 하지만 심층신경망을 멀티태스크 러닝 기법으로 학습시키는 과정에서, 나이 정보에 대한 학습이 효율적으로 수행되지 않는 것을 실험적으로 확인하였다. 이와 같은 현상을 방지하기 위해, 본 논문에서는 심층신경망의 학습 과정 중 화자 식별과 나이 추정 목적 함수의 가중치를 동적으로 변경 하는 기법을 제안한다. 동일 오류율을 기준으로 RSR2015 평가 데이터세트에 대해 화자 인증 성능을 평가한 결과 나이 정보를 활용하지 않은 화자 인증 시스템의 경우 6.91 %, 나이 정보를 활용한 화자 인증 시스템의 경우 6.77 %, 나이 정보를 활용한 화자 인증 시스템에 가중치 변경 기법을 적용한 경우 4.73 %의 오류율을 확인하였다. The similarity in tones between speakers can lower the performance of speaker verification. To improve the performance of speaker verification systems, we propose a multi-task learning technique using deep neural network to learn speaker information and age information. Multi-task learning can improve generalization performances, because it helps deep neural networks to prevent hidden layers from overfitting into one task. However, we found in experiments that learning of age information does not work well in the process of learning the deep neural network. In order to improve the learning, we propose a method to dynamically change the objective function weights of speaker identification and age estimation in the learning process. Results show the equal error rate based on RSR2015 evaluation data set, 6.91 % for the speaker verification system without using age information, 6.77 % using age information only, and 4.73 % using age information when weight change technique was applied.

      • d-vector 기반 화자 인증 시스템의 성능 비교를 통한 심층 신경망의 범용성 확인

        정지원(Jee-Won Jung),허희수(Hee-Soo Heo),양일호(IL-Ho Yang),윤성현(Sung-Hyun Yoon),유하진(Ha-Jin Yu) 한국HCI학회 2017 한국HCI학회 학술대회 Vol.2017 No.2

        d-vector 는 심층 신경망으로부터 추출된 특징으로서, 특정 발성의 화자 특성을 표현한다. 학습데이터(development set)를 사용해 화자 식별기로 학습된 심층 신경망의 특정 은닉층의 출력값을 취함으로써 d-vector 를 추출할 수 있다. 본 연구에서는 d-vector 를 사용한 화자 인증 실험을 통해, 학습에 사용된 데이터와 d-vector 추출에 사용된 은닉층의 깊이에 따라 결정되는, 추출된 d-vector 의 범용성(generality power)이 화자 인증 성능에 미치는 영향을 확인하였다. 실험 결과, 심층 신경망을 화자식별기로 학습시킬 때 다른 도메인(domain)의 데이터를 추가 활용하여 더욱 범용성(generality power)이 높은 심층 신경망 화자 식별기를 학습시킬수 있음을 확인하였다.

      • KCI등재

        법음성학에서의 오디오 신호의 위변조 구간 자동 검출 방법 연구

        양일호(Yang, IL-Ho),김경화(Kim, Kyung-Wha),김명재(Kim, Myung-Jae),백록선(Baek, Rock-Seon),허희수(Heo, Hee-Soo),유하진(Yu, Ha-Jin) 한국음성학회 2014 말소리와 음성과학 Vol.6 No.2

        We propose a novel scheme for digital audio authentication of given audio files which are edited by inserting small audio segments from different environmental sources. The purpose of this research is to detect inserted sections from given audio files. We expect that the proposed method will assist human investigators by notifying suspected audio section which considered to be recorded or transmitted on different environments. GMM-UBM and GSV-SVM are applied for modeling the dominant environment of a given audio file. Four kinds of likelihood ratio based scores and SVM score are used to measure the likelihood for a dominant environment model. We also use an ensemble score which is a combination of the aforementioned five kinds of scores. In the experimental results, the proposed method shows the lowest average equal error rate when we use the ensemble score. Even when dominant environments were unknown, the proposed method gives a similar accuracy.

      • 연속어 인식 및 형태소 태깅을 위한 재귀적 알고리즘에 관한 연구

        정홍,박기윤,허희수 한국뇌학회 2003 한국뇌학회지 Vol.3 No.1

        자모의 삽입/탈락/치환, 맞춤법에 어긋난 어절 경계 등으로 나타나는 입력오류에 강인한 형태소 분석과 태깅을 통합한 방법에 관한 방법을 제시하며 음성 인식시스템과 연동 방안을 모색한다. We present a integrated approach for morphological analysis and tagging for Korean spoken language. The method is robust for alphabet insertion, deletion, substitution and wrong boundary of eojeol according to spelling rules. It can link with speech recognition system for post-processing.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼