RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재후보

        인터넷 전화에서 손실 패킷 복원을 위한 동적인 부가 정보 전송 기법

        권철홍,김무중 한국음향학회 2002 韓國音響學會誌 Vol.21 No.4

        인터넷 폰 시스템은 네트워크 트래픽 문제로 인한 지연, 지터 그리고 패킷 손실을 경험하고 이로 인한 통화품질의 저하가 문제가 되어 통화품질 (QoS) 향상 기술이 필요하게 되었다. 본 논문에서는 인터넷상에서 통화품질을 저해하는 요소들을 분석하고 실시간 전송 프로토콜/실시간 전송제어 프로토콜 (RTP/RTCP)을 이용하여 네트워크 상태를 진단하여 송, 수신 단말기간 네트워크 트래픽에 알맞은 방식으로 인코딩된 패킷을 송,수신하는 동적인 손실 복구 알고리즘을 제안한다. 실험결과 제안한 부가정보를 이용한 동적인 손실 복구 알고리즘은 연속 패킷손실인 경우 63%의 손실패킷 복원률을 보여주며, 비연속 패킷손실인 경우 42%의 패킷손실 복원률을 보여준다. In ITU H.323 teleconference system, the RTP/RTCP protocol is offered to transfer real-time multimedia stream. Both sender and receiver hate experience in packet loss and jitter which result from network congestion over Internet. Audio quality over Internet depends on the number of lost packets and on jitter between successive packets. The goal of our study is to improve the speech quality over Internet by checking the packet loss characteristics of the network and adopting the but for control management mechanism at the receiver. We suggest a dynamic redundant audio transmission mechanism which examines the packet loss rate and uses the feedback information through RTCP.

      • KCI등재

        열악한 환경에 강인한 화자인증을 위한 위상 기반 특징 추출 기법

        권철홍,Kwon, Chul-Hong 한국정보통신학회 2010 한국정보통신학회논문지 Vol.14 No.3

        Additive noise and channel distortion strongly degrade the performance of speaker verification systems, as it introduces distortion of the features of speech. This distortion causes a mismatch between the training and recognition conditions such that acoustic models trained with clean speech do not model noisy and channel distorted speech accurately. This paper presents a phase-related feature extraction method in order to improve the robustness of the speaker verification systems. The instantaneous frequency is computed from the phase of speech signals and features from the histogram of the instantaneous frequency are obtained. Experimental results show that the proposed technique offers significant improvements over the standard techniques in both clean and adverse testing environments. 화자인증 시스템은 훈련 환경과 인식 환경이 다른 경우 인식 성능이 크게 저하된다. 이러한 훈련과 인식 환경의 불일치는 다양한 잡음과 상이한 채널 환경 때문이다. 본 논문은 화자인증 시스템의 강인성 개선을 위하여 음성신호의 위상에 기반한 특정 추출 기법을 제안한다. 이 방법은 음성신호의 위상으로부터 순시 주파수를 계산하여 대역별로 순시 주파수를 모두 모아 구한 히스토그램으로부터 특징 계수를 추출한다. 이 특징 파라미터를 적용한 결과 조 용한 환경뿐만 아니라 잡음환경 그리고 채널 왜곡 환경에서도 화자인증 시스템의 성능이 개선됨을 알 수 있다.

      • PS-RELP 방식을 이용한 TTS 합성음 품질의 성능 향상

        권철홍 대전대학교 산업기술연구소 1998 산업기술연구소 論文集 Vol.9 No.2

        본 논문은 TTS 음성합성의 평가 척도인 사람 목소리와 이해도라는 척도 중에서 사람 목소리에 관한 주제를 다루고자 한다. 이를 위하여 음성 DB의 합성 단위로 주위 음소 환경을 고려한 CVC type을 기본으로 하고, CV,VC type으로 보강한 단위를 선정하여 음성 DB를 구축하였다. CVC type DB의 수는 산술적으로 10,962개이나 사용 빈도수를 조사하여 그 중에서 사용 빈도수가 많은 2,923개만 CVC DB로 구축하였다. CV,VC type에 해당하는 DB는 1469개이므로 전체 DB 총수는 4392개이다. 그리고 합성 알고리즘은 TD-PSOLA 방식의 단점인 피치 조절의 한계를 극복할 수 있는 음성 파형 생성 알고리즘에 대하여 연구하여 PS-RELP 방식을 제안하였다. 이 방식은 스펙트럼 성분이 제거된 residual 신호를 overlap-add 하므로 음성 신호의 스펙트럼을 그대로 보존할 수 있다는 이점이 생겨서 TD-PSOLA 방식 보다 피치 조절의 자유도가 확대된다. For a Korean TTS system, we construct speech database which is composed of CVC type and CV,VC types. CVC type database is constructed by considering surrounding phoneme environments, and its number is 2,923. The number of CV,VC type database is 1,469, and therefore total number of the database is 4,392. For a TTS synthesis algorithm, we propose a PS-RELP(Pitch Synchronous Residual Excited Linear Prediction) method. It remedies the shortcomings of TD-PSOLA method that places a restriction on pitch control. It overlap-adds residual signals which contain no spectral components, and therefore it conserves the spectral components of a speech signal

      • 음성인식기를 이용한 한국인의 외국어 발화오류 자동 검출

        권철홍,강효원,이상필,Kwon Chul-Hong,Kang Hyo-Won,Lee Sang-Pil 대한음성학회 2003 말소리 Vol.48 No.-

        An automatic pronunciation correction system provides learners with correction guidelines for each mispronunciation. In this paper we propose an HMM based speech recognizer which automatically classifies pronunciation errors when Korean speak Japanese. For this purpose we also develop phoneme recognizers for Korean and Japanese. Experimental results show that the machine scores of the proposed recognizer correlate with expert ratings well.

      • KCI등재

        한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교

        권철홍 국제문화기술진흥원 2020 The Journal of the Convergence on Culture Technolo Vol.6 No.2

        The conventional TTS system consists of several modules, including text preprocessing, parsing analysis, grapheme-to-phoneme conversion, boundary analysis, prosody control, acoustic feature generation by acoustic model, and synthesized speech generation. But TTS system with deep learning is composed of Text2Mel process that generates spectrogram from text, and vocoder that synthesizes speech signals from spectrogram. In this paper, for the optimal Korean TTS system construction we apply Tacotron2 to Tex2Mel process, and as a vocoder we introduce the methods such as WaveNet, WaveRNN, and WaveGlow, and implement them to verify and compare their performance. Experimental results show that WaveNet has the highest MOS and the trained model is hundreds of megabytes in size, but the synthesis time is about 50 times the real time. WaveRNN shows MOS performance similar to that of WaveNet and the model size is several tens of megabytes, but this method also cannot be processed in real time. WaveGlow can handle real-time processing, but the model is several GB in size and MOS is the worst of the three vocoders. From the results of this study, the reference criteria for selecting the appropriate method according to the hardware environment in the field of applying the TTS system are presented in this paper. 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. 본 논문에서는 최적의 한국어 TTS 시스템 구성을 위해 Tex2Mel 과정에는 Tacotron2를 적용하고, 보코더로는 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증한다. 실험 결과, WaveNet은 MOS가 가장 높으며 학습 모델 크기가 수백 MB이고 합성시간이 실시간의 50배 정도라는 결과가 나왔다. WaveRNN은 WaveNet과 유사한 MOS 성능을 보여주며 모델 크기가 수십 MB 단위이고 실시간 처리는 어렵다는 결과가 도출됐다. WaveGlow는 실시간 처리가 가능한 방법이며 모델 크기가 수 GB이고 MOS가 세 방식 중에서 가장 떨어진다는 결과를 보여주었다. 본 논문에서는 이러한 연구 결과로부터 TTS 시스템을 적용하는 분야의 하드웨어 환경에 맞춰 적합한 방식을 선정할 수 있는 참고 기준을 제시한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼