RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목

      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
          • 원문제공처
          • 등재정보
          • 학술지명
          • 주제분류
          • 발행연도
          • 작성언어
          • 저자

        오늘 본 자료

        • 오늘 본 자료가 없습니다.
        더보기
        • 무료
        • 기관 내 무료
        • 유료
        • 자연스러운 합성음을 위한 한국어 여성음의 지속시간 변화 법칙

          권철홍 大田大學校 産業技術硏究所 1997 論文集 Vol.8 No.2

          Accurate prosodic control of pitch, segmental duration and intensity is very important for the naturalness of synthesized speech. In this paper we make a rule of duration variation for a natural synthetic female voice. Factors relevant to duration variation are the position and the number of syllables in a word, the effects of neighboring phonemes and speaking rate. The rule of duration variation extracted from enormous sentences uttered by three female speakers is presented and some simulation results are shown. According to our informal listening tests, the naturalness of synthesized speech is greatly improved.

        • 음성인식기를 이용한 한국인의 외국어 발화오류 자동 검출

          권철홍,강효원,이상필,Kwon Chul-Hong,Kang Hyo-Won,Lee Sang-Pil 대한음성학회 2003 말소리 Vol.48 No.-

          An automatic pronunciation correction system provides learners with correction guidelines for each mispronunciation. In this paper we propose an HMM based speech recognizer which automatically classifies pronunciation errors when Korean speak Japanese. For this purpose we also develop phoneme recognizers for Korean and Japanese. Experimental results show that the machine scores of the proposed recognizer correlate with expert ratings well.

        • KCI등재후보

          인터넷 전화에서 손실 패킷 복원을 위한 동적인 부가 정보 전송 기법

          권철홍,김무중 한국음향학회 2002 韓國音響學會誌 Vol.21 No.4

          인터넷 폰 시스템은 네트워크 트래픽 문제로 인한 지연, 지터 그리고 패킷 손실을 경험하고 이로 인한 통화품질의 저하가 문제가 되어 통화품질 (QoS) 향상 기술이 필요하게 되었다. 본 논문에서는 인터넷상에서 통화품질을 저해하는 요소들을 분석하고 실시간 전송 프로토콜/실시간 전송제어 프로토콜 (RTP/RTCP)을 이용하여 네트워크 상태를 진단하여 송, 수신 단말기간 네트워크 트래픽에 알맞은 방식으로 인코딩된 패킷을 송,수신하는 동적인 손실 복구 알고리즘을 제안한다. 실험결과 제안한 부가정보를 이용한 동적인 손실 복구 알고리즘은 연속 패킷손실인 경우 63%의 손실패킷 복원률을 보여주며, 비연속 패킷손실인 경우 42%의 패킷손실 복원률을 보여준다. In ITU H.323 teleconference system, the RTP/RTCP protocol is offered to transfer real-time multimedia stream. Both sender and receiver hate experience in packet loss and jitter which result from network congestion over Internet. Audio quality over Internet depends on the number of lost packets and on jitter between successive packets. The goal of our study is to improve the speech quality over Internet by checking the packet loss characteristics of the network and adopting the but for control management mechanism at the receiver. We suggest a dynamic redundant audio transmission mechanism which examines the packet loss rate and uses the feedback information through RTCP.

        • KCI등재

          열악한 환경에 강인한 화자인증을 위한 위상 기반 특징 추출 기법

          권철홍,Kwon, Chul-Hong 한국정보통신학회 2010 한국정보통신학회논문지 Vol.14 No.3

          Additive noise and channel distortion strongly degrade the performance of speaker verification systems, as it introduces distortion of the features of speech. This distortion causes a mismatch between the training and recognition conditions such that acoustic models trained with clean speech do not model noisy and channel distorted speech accurately. This paper presents a phase-related feature extraction method in order to improve the robustness of the speaker verification systems. The instantaneous frequency is computed from the phase of speech signals and features from the histogram of the instantaneous frequency are obtained. Experimental results show that the proposed technique offers significant improvements over the standard techniques in both clean and adverse testing environments. 화자인증 시스템은 훈련 환경과 인식 환경이 다른 경우 인식 성능이 크게 저하된다. 이러한 훈련과 인식 환경의 불일치는 다양한 잡음과 상이한 채널 환경 때문이다. 본 논문은 화자인증 시스템의 강인성 개선을 위하여 음성신호의 위상에 기반한 특정 추출 기법을 제안한다. 이 방법은 음성신호의 위상으로부터 순시 주파수를 계산하여 대역별로 순시 주파수를 모두 모아 구한 히스토그램으로부터 특징 계수를 추출한다. 이 특징 파라미터를 적용한 결과 조 용한 환경뿐만 아니라 잡음환경 그리고 채널 왜곡 환경에서도 화자인증 시스템의 성능이 개선됨을 알 수 있다.

        • KCI등재

          한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교

          권철홍 국제문화기술진흥원 2020 The Journal of the Convergence on Culture Technolo Vol.6 No.2

          The conventional TTS system consists of several modules, including text preprocessing, parsing analysis, grapheme-to-phoneme conversion, boundary analysis, prosody control, acoustic feature generation by acoustic model, and synthesized speech generation. But TTS system with deep learning is composed of Text2Mel process that generates spectrogram from text, and vocoder that synthesizes speech signals from spectrogram. In this paper, for the optimal Korean TTS system construction we apply Tacotron2 to Tex2Mel process, and as a vocoder we introduce the methods such as WaveNet, WaveRNN, and WaveGlow, and implement them to verify and compare their performance. Experimental results show that WaveNet has the highest MOS and the trained model is hundreds of megabytes in size, but the synthesis time is about 50 times the real time. WaveRNN shows MOS performance similar to that of WaveNet and the model size is several tens of megabytes, but this method also cannot be processed in real time. WaveGlow can handle real-time processing, but the model is several GB in size and MOS is the worst of the three vocoders. From the results of this study, the reference criteria for selecting the appropriate method according to the hardware environment in the field of applying the TTS system are presented in this paper. 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. 본 논문에서는 최적의 한국어 TTS 시스템 구성을 위해 Tex2Mel 과정에는 Tacotron2를 적용하고, 보코더로는 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증한다. 실험 결과, WaveNet은 MOS가 가장 높으며 학습 모델 크기가 수백 MB이고 합성시간이 실시간의 50배 정도라는 결과가 나왔다. WaveRNN은 WaveNet과 유사한 MOS 성능을 보여주며 모델 크기가 수십 MB 단위이고 실시간 처리는 어렵다는 결과가 도출됐다. WaveGlow는 실시간 처리가 가능한 방법이며 모델 크기가 수 GB이고 MOS가 세 방식 중에서 가장 떨어진다는 결과를 보여주었다. 본 논문에서는 이러한 연구 결과로부터 TTS 시스템을 적용하는 분야의 하드웨어 환경에 맞춰 적합한 방식을 선정할 수 있는 참고 기준을 제시한다.

        • KCI등재

          감정 인식을 위한 음성 특징 도출

          권철홍,송승규,김종열,김근호,장준수 한국음성학회 2012 말소리와 음성과학 Vol.4 No.2

          Emotion recognition is an important technology in the filed of human-machine interface. To apply speech technology to emotion recognition, this study aims to establish a relationship between emotional groups and their corresponding voice characteristics by investigating various speech features. The speech features related to speech source and vocal tract filter are included. Experimental results show that statistically significant speech parameters for classifying the emotional groups are mainly related to speech sources such as jitter, shimmer, F0 (F0_min, F0_max, F0_mean, F0_std), harmonic parameters (H1, H2, HNR05, HNR15, HNR25, HNR35), and SPI.

        맨 위로 스크롤 이동