RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        한국어 음성인식 플랫폼 (ECHOS) 개발

        권오욱,권석봉,장규철,윤성락,김용래,장광동,김회린,유창동,김봉완,이용주,Kwon Oh-Wook,Kwon Sukbong,Jang Gyucheol,Yun Sungrack,Kim Yong-Rae,Jang Kwang-Dong,Kim Hoi-Rin,Yoo Changdong,Kim Bong-Wan,Lee Yong-Ju 한국음향학회 2005 韓國音響學會誌 Vol.24 No.8

        We introduce a Korean speech recognition platform (ECHOS) developed for education and research Purposes. ECHOS lowers the entry barrier to speech recognition research and can be used as a reference engine by providing elementary speech recognition modules. It has an easy simple object-oriented architecture, implemented in the C++ language with the standard template library. The input of the ECHOS is digital speech data sampled at 8 or 16 kHz. Its output is the 1-best recognition result. N-best recognition results, and a word graph. The recognition engine is composed of MFCC/PLP feature extraction, HMM-based acoustic modeling, n-gram language modeling, finite state network (FSN)- and lexical tree-based search algorithms. It can handle various tasks from isolated word recognition to large vocabulary continuous speech recognition. We compare the performance of ECHOS and hidden Markov model toolkit (HTK) for validation. In an FSN-based task. ECHOS shows similar word accuracy while the recognition time is doubled because of object-oriented implementation. For a 8000-word continuous speech recognition task, using the lexical tree search algorithm different from the algorithm used in HTK, it increases the word error rate by $40\%$ relatively but reduces the recognition time to half. 교육 및 연구 목적을 위하여 개발된 한국어 음성인식 플랫폼인 ECHOS를 소개한다. 음성인식을 위한 기본 모듈을 제공하는 BCHOS는 이해하기 쉽고 간단한 객체지향 구조를 가지며, 표준 템플릿 라이브러리 (STL)를 이용한 C++ 언어로 구현되었다. 입력은 8또는 16 kHz로 샘플링된 디지털 음성 데이터이며. 출력은 1-beat 인식결과, N-best 인식결과 및 word graph이다. ECHOS는 MFCC와 PLP 특징추출, HMM에 기반한 음향모델, n-gram 언어모델, 유한상태망 (FSN)과 렉시컬트리를 지원하는 탐색알고리듬으로 구성되며, 고립단어인식으로부터 대어휘 연속음성인식에 이르는 다양한 태스크를 처리할 수 있다. 플랫폼의 동작을 검증하기 위하여 ECHOS와 hidden Markov model toolkit (HTK)의 성능을 비교한다. ECHOS는 FSN 명령어 인식 태스크에서 HTK와 거의 비슷한 인식률을 나타내고 인식시간은 객체지향 구현 때문에 약 2배 정도 증가한다. 8000단어 연속음성인식에서는 HTK와 달리 렉시컬트리 탐색 알고리듬을 사용함으로써 단어오류율은 $40\%$ 증가하나 인식시간은 0.5배로 감소한다.

      • 한국어 음성인식 플랫폼의 설계

        권오욱,김회린,유창동,김봉완,이용주,Kwon Oh-Wook,Kim Hoi-Rin,Yoo Changdong,Kim Bong-Wan,Lee Yong-Ju 대한음성학회 2004 말소리 Vol.51 No.-

        For educational and research purposes, a Korean speech recognition platform is designed. It is based on an object-oriented architecture and can be easily modified so that researchers can readily evaluate the performance of a recognition algorithm of interest. This platform will save development time for many who are interested in speech recognition. The platform includes the following modules: Noise reduction, end-point detection, met-frequency cepstral coefficient (MFCC) and perceptually linear prediction (PLP)-based feature extraction, hidden Markov model (HMM)-based acoustic modeling, n-gram language modeling, n-best search, and Korean language processing. The decoder of the platform can handle both lexical search trees for large vocabulary speech recognition and finite-state networks for small-to-medium vocabulary speech recognition. It performs word-dependent n-best search algorithm with a bigram language model in the first forward search stage and then extracts a word lattice and restores each lattice path with a trigram language model in the second stage.

      • Electromagnetic Topology를 이용한 PCB상에서의 EMC 해석

        권오욱(Oh-Wook Kwon),박윤미(Yoon-Mi Park),정현교(Hyun-Kyo Jung),소준호(Jun-Ho So),장훈(Hun Jang) 대한전기학회 2006 대한전기학회 학술대회 논문집 Vol.2006 No.7

        PCB상에서의 집중정수 소자를 분석하기 위해 Electromagnetic Topology를 이용한다. 복잡한 시스템에서 EM Coupling 문제를 수치해석이나 실험을 통해 구하기는 어렵다. 이런 복잡한 시스템에서 Electromagnetic Topology 방법을 통하여 EMC 해석을 하는 것은 유용 할 것이다. 간단한 회로로 된 PCB를 통하여 이 방법에 대하여 검증해볼 것이다.

      • CASA 기반 음성분리 성능 향상을 위한 형태 분석 기술의 응용

        이윤경,권오욱,Lee, Yun-Kyung,Kwon, Oh-Wook 대한음성학회 2008 말소리 Vol.65 No.-

        We propose a new method to apply shape analysis techniques to a computational auditory scene analysis (CASA)-based speech separation system. The conventional CASA-based speech separation system extracts speech signals from a mixture of speech and noise signals. In the proposed method, we complement the missing speech signals by applying the shape analysis techniques such as labelling and distance function. In the speech separation experiment, the proposed method improves signal-to-noise ratio by 6.6 dB. When the proposed method is used as a front-end of speech recognizers, it improves recognition accuracy by 22% for the speech-shaped stationary noise condition and 7.2% for the two-talker noise condition at the target-to-masker ratio than or equal to -3 dB.

      • KCI등재

        잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합

        윤성욱,권오욱,Yoon, Sung-Wook,Kwon, Oh-Wook 한국음향학회 2021 韓國音響學會誌 Vol.40 No.5

        본 논문에서는 실제 환경에서의 연속 음성 강화를 위한 딥러닝 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합한 빔포머를 제안한다. 기존 빔포밍 시스템은 컴퓨터에서 음성과 잡음을 완전히 겹친 방식으로 혼합하여 생성된 사전 분할 오디오 신호를 사용하여 대부분 평가되었다. 하지만 실제 환경에서는 시간 축으로 음성 발화가 띄엄띄엄 발성되기 때문에, 음성이 없는 잡음 신호가 시스템에 입력되면 기존 빔포밍 알고리듬의 성능이 저하된다. 이러한 효과를 경감하기 위하여, 심층 학습 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합하였다. 잡음 환경에서 온라인 빔포밍 알고리듬을 평가하기 위해 연속 음성 강화 세트를 구성하였다. 평가 세트는 CHiME3 평가 세트에서 추출한 음성 발화와 CHiME3 배경 잡음 및 MUSDB에서 추출한 연속 재생되는 배경음악을 혼합하여 구성되었다. 음성인식기로는 Kaldi 기반 툴킷 및 구글 웹 음성인식기를 사용하였다. 제안한 온라인 빔포밍 알고리듬 과 스펙트럼 감산이 베이스라인 빔포밍 알고리듬에 비해 성능 향상을 보임을 확인하였다.

      • KCI등재

        심음 기반의 심장질환 분류를 위한 새로운 시간영역 특징

        곽철,권오욱,Kwak, Chul,Kwon, Oh-Wook 한국음향학회 2010 韓國音響學會誌 Vol.29 No.2

        We improve the performance of cardiac disorder classification by adding new temporal features extracted from continuous heart sound signals. We add three kinds of novel temporal features to a conventional feature based on mel-frequency cepstral coefficients (MFCC): Heart sound envelope, murmur probabilities, and murmur amplitude variation. In cardiac disorder classification and detection experiments, we evaluate the contribution of the proposed features to classification accuracy and select proper temporal features using the sequential feature selection method. The selected features are shown to improve classification accuracy significantly and consistently for neural network-based pattern classifiers such as multi-layer perceptron (MLP), support vector machine (SVM), and extreme learning machine (ELM). 연속 심음신호로부터 추출한 새로운 시간영역에서의 특징들을 추가하여 심장질환 분류의 성능을 개선한다. 기존에 사용되고 있는 켑스트럼 영역 특징인 멜주파수 켑스트럼 계수 (MFCC)에 심음 포락선, 심잡음 확률벡터, 심잡음 진폭값 변동으로 구성된 새로운 3종류의 시간영역 특징을 추가한다. 심장 질환 분류 및 검출 실험에서, 시간영역 특징의 분류 정확도에 대한 기여도를 평가하고 순차적 특징선택 방식을 이용하여 시간영역 특징을 선택한다. 선택된 특징들은 다층 퍼셉트론(MLP), support rector machine (SVM), extreme learning machine (ELM)와 같은 신경회로망 패턴 분류기에 대하여 의미있고 일관되게 분류 정확도를 개선함을 보여준다.

      • 시간-주파수 스무딩이 적용된 소프트 마스크 필터를 이용한 단일 채널 음성 분리

        이윤경,권오욱,Lee, Yun-Kyung,Kwon, Oh-Wook 대한음성학회 2008 말소리 Vol.67 No.-

        This paper addresses the problem of single-channel speech separation to extract the speech signal uttered by the speaker of interest from a mixture of speech signals. We propose to apply time-frequency smoothing to the existing statistical single-channel speech separation algorithms: The soft mask and the minimum-mean-square-error (MMSE) algorithms. In the proposed method, we use the two smoothing later. One is the uniform mask filter whose filter length is uniform at the time-Sequency domain, and the other is the met-scale filter whose filter length is met-scaled at the time domain. In our speech separation experiments, the uniform mask filter improves speaker-to-interference ratio (SIR) by 2.1dB and 1dB for the soft mask algorithm and the MMSE algorithm, respectively, whereas the mel-scale filter achieves 1.1dB and 0.8dB for the same algorithms.

      • KCI등재

        SVM을 이용하여 HMM과 심잡음 점수를 결합한 심음 기반 심장질환 분류기

        곽철,권오욱,Kwak, Chul,Kwon, Oh-Wook 한국음향학회 2011 韓國音響學會誌 Vol.30 No.3

        본 논문은 support vector machine (SVM)을 사용하여 은닉 마코프 모델 (HMM)과 심잡음 존재 정보를 결합한 새로운 심장질환 분류 방법을 제안한다. 켑스트럼 특징과 HMM 비터비 (Viterbi) 알고리듬을 이용하여 입력 신호를 모든 심장질환 모델에 대하여 상태 단위로 분할하여 상태별로 로그우도 (점수)를 계산한다. 심잡음 신호의 시간적 위치 특성을 이용하기 위하여 입력신호를 두 개의 부대역으로 나누고 부대역별로 프레임 단위의 심잡음 점수를 계산한 다음, 비터비 알고리듬으로부터 구한 상태 분할 정보를 이용하여 상태단위의 심잡음 점수를 구한다. SVM은 모든 심장질환 종류에 대한 상태 단위의 HMM과 심잡음 점수를 입력으로 하여 최종적으로 심장질환을 판정한다. 심장질환 분류 실험결과, 제안한 방법은 기존의 켑스트럼 특징과 HMM 분류기를 이용한 방법에 비하여 20.4 %의 상대적 개선율을 보여준다. In this paper, we propose a new cardiac disorder classification method using an support vector machine (SVM) to combine hidden Markov model (HMM) and murmur existence information. Using cepstral features and the HMM Viterbi algorithm, we segment input heart sound signals into HMM states for each cardiac disorder model and compute log-likelihood (score) for every state in the model. To exploit the temporal position characteristics of murmur signals, we divide the input signals into two subbands and compute murmur probability of every subband of each frame, and obtain the murmur score for each state by using the state segmentation information obtained from the Viterbi algorithm. With an input vector containing the HMM state scores and the murmur scores for all cardiac disorder models, SVM finally decides the cardiac disorder category. In cardiac disorder classification experimental results, the proposed method shows the relatively improvement rate of 20.4 % compared to the HMM-based classifier with the conventional cepstral features.

      • KCI등재

        한국어 음성인식을 위한 음성 데이터 수집

        박종렬,권오욱,김도영,최인정,정호영,은종관,Park, Jong-Ryeal,Kwon, Oh-Wook,Kim, Do-Yeong,Choi, In-Jeong,Jeong, Ho-Young,Un, Chong-Kwan 한국음향학회 1995 韓國音響學會誌 Vol.14 No.4

        본 논문에서는 한국과학기술원(KAIST) 통신연구실에서 개발한 한국어 음성 데이터베이스의 개발에 관하여 기술한다. 음성 데이터베이스의 구축을 위하여 사용된 절차와 환경, 및 데이터베이스의 음성학적, 언어학적 성질들이 상세히 기술된다. 데이터베이스는 음성인식 알고리듬의 개발 및 평가를 위하여 사용되도록 고안되었다. 데이터베이스는 5종류의 음성 데이터, 즉 3천단어 규모의 무역관련 연속음성, 가변길이 연결 숫자음, phoneme-balanced75 고립단어, 지역명 관련 500 고립단어, 한국어 아-세트로 구성되어 있다. This paper describes the development of speech databases for the Korean language which were constructed at Communications Research Laboratory in KAIST. The procedure and environment to construct the speech database are presented in detail, and the phonetic and linguistic properties of the databases are presented. the databases were intended for use in designing and evaluating speech recognition algorithms. The databases consist of five different sets of speech contents : trade-related continuous speech with 3,000 words, variable-length connected digits, phoneme-balanced 75 isolated words, 500 isolated Korean provincial names, and Korean A-set words.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼