http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
머신러닝을 이용한 음성 생성 모델 기반의 음성 향상 기술
유정찬,김재원,문희연,박호종 한국방송∙미디어공학회 2023 방송공학회논문지 Vol.28 No.6
본 논문은 음성 생성 모델에 따라 음성 향상을 수행하는 새로운 신경망 구조를 제안한다. 신경망은 입력신호로부터 여기신호와 스펙트럼 포락선을 구하고 각 성분에 대한 품질 향상을 수행하여 출력을 생성한다. 이 때, 각 성분의 특성에 맞는 제약조건을 신경망에 적용하여 음성 생성 모델에 따른 동작을 학습시킨다. 또한, 제안 방법은 음성에 특화된 제한적 동작을 수행하므로 기존 방법에 비해 신경망 복잡도를 감소시킨다. NSDTSEA 데이터셋을 사용하여 신경망 학습과 성능 평가를 진행하였고, 스펙트로그램 분석을 통하여 학습된 신경망이 음성 생성 모델에 따라 동작하여 음성 향상을 수행하는 것을 확인하였다. 또한 객관적 성능평가를 통해 제안 방법이 SEGAN과 WaveNet에 비해 각각 1,344배와 70배 적은 신경망 매개변수를 가지고 더 우수한 품질의 음성을 생성하는 것을 확인하였다. 이를 통해 제안 방법이 음성 생성 모델을 이용하여 적은 양의 신경망 매개변수로도 효율적인 음성 향상을 수행할 수 있음을 확인하였다. This paper proposes a new neural network architecture for speech enhancement based on speech production model. The networkdecomposes the input into the excitation signal and spectral envelope, and synthesizes the output after enhancing each component. Constraints appropriate for each component is applied to the network for the intended learning according to the speech productionmodel. In addition, the proposed method conducts limited operations specific to speech, thus reducing the complexity comparedwith conventional methods. The NSDTSEA dataset is used for network training and performance evaluation, and the spectrogramanalysis confirms that the learned network performs speech enhancement according to the speech production model. An objectiveperformance evaluation confirms that the proposed method provides higher performance than the SEGAN and WaveNet, whileusing 1,344 and 70 times fewer network parameters than the SEGAN and WaveNet, respectively. These results verify that theproposed method can perform effective speech enhancement even using a small network owing to the speech production model.
조건부 Wavenet을 이용한 음성 신호의 잡음 제거 기술
유정찬(Yu, Jeongchan),서은미(Seo, Eunmi),임유진(Lim, Yujin),박호종(Park, Hochong) 한국방송·미디어공학회 2021 한국방송공학회 학술발표대회 논문집 Vol.2021 No.6
본 논문에서는 조건부 wavenet을 이용한 음성 신호의 잡음 제거 기술을 제안한다. 기존의 음성 신호 잡음 제거 기술은 스펙트로그램을 기반으로 발전되어 왔으나, 잡음으로 인해 변형된 원음의 위상 정보를 복원할 수 없는 문제점을 가진다. 이를 해결하기 위해 시간 영역에서 전 과정을 실행하는 기계학습 모델인 wavenet을 사용하여 음성 신호의 잡음을 제거하는 방법을 제안한다. 특히, 잡음 종류를 조건으로 입력하여 성능 향상을 얻도록 한다. 성능 평가를 통하여 제안 방법이 시간 영역에서 잡음을 감소시킬 수 있음을 확인하였다.
불확실성에 대한 인내력과 사회불안의 관계: 경험회피와 사후반추사고의 순차적 매개효과
유정찬,최아론 한국복지상담교육학회 2022 복지상담교육연구 Vol.11 No.2
In this study, we investigated whether experiential avoidance and post-event rumination mediate the relationship between lack Intolerance for uncertainty and social anxiety. A self-reported questionnaire survey was conducted face-to-face and online with 459 university students, and the measurement tools were the Korean version of the lack Intolerance for Uncertainty Scale(IUS) and the shortened Korean version of the Multidimensional Experiential Avoidance Questionnaire(MEAQ-24). The post-event rumination Questionnaire (PRQ), the Social Interaction Anxiety Scale(SIAS) and the Social Fear Scale(SPS) were used to measure social anxiety. The research results are as follows. First, lack of Intolerance for uncertainty, avoidance of experiential, post-event rumination, and social anxiety all showed a static correlation. Second, it was shown that experience avoidance and post-event rumination are single mediators in relation to lack Intolerance for uncertainty and social anxiety. Thirdly, due to the relationship between lack Intolerance for uncertainty and social anxiety, experience avoidance and post-event rumination were shown to be completely mediated in sequence. This study has implications in that it clearly revealed the avoidance and cognitive processes that individuals who lack the patience for uncertainty experience in the process of experiencing social anxiety. And based on the behavioral and cognitive characteristics revealed in the study, a follow-up study was suggested. 본 연구는 대학생들의 불확실성에 대한 인내력이 사회불안에 미치는 영향에서 경험회피와 사후반추사고의 역할을 검증하고, 사회불안의 감소를 위한 개입을 모색하는데 목적이 있다. 이를 위해 국내 재학 중인 대학생 459명을 대상으로 2022년 3월 1일부터 202년 4월까지 30일 약 2개월간 설문조사를 실시하였고, 그 결과를 SPSS 22.0, SPSS MACRO v4.0 통계패키지 프로그램을 활용하여 분석하였다. 연구결과는 다음과 같다. 첫째, 불확실성에 대한 인내력 부족과 경험회피, 사후반추사고, 사회불안은 모두 정적 상관을 보였다. 둘째, 불확실성에 대한 인내력 부족과 사회불안의 관계에서 경험회피와 사후반추사고는 각각 단일 매개하는 것으로 나타났다. 셋째, 불확실성에 대한 인내력 부족과 사회불안의 관계에서 경험회피와 사후반추사고는 순차적으로 완전 매개하는 결과를 보였다. 본 연구는 불확실성에 대한 인내력이 부족한 개인들이 사회불안을 겪는 과정에서 겪는 회피와 인지과정을 명료히 밝혔다는 점에서 함의가 있다. 그리고 연구에서 밝혀진 행동적, 인지적 특성을 바탕으로 후속연구에 대해 제언하였다.
클리핑 감지기를 이용한 음성 신호 클리핑 제거의 성능 향상
서은미,유정찬,임유진,박호종 한국방송∙미디어공학회 2023 방송공학회논문지 Vol.28 No.1
본 논문에서는 클리핑 감지기를 이용하여 음성 신호의 클리핑 제거 성능을 향상시키는 방법을 제안한다. 클리핑은 입력 음성 신호의 크기가 마이크의 동적 범위를 넘을 때 발생하며, 음성 품질을 저하시키는 요인이 된다. 최근 머신러닝을 이용한 많은 클리핑 제거 기술이 개발되었고 우수한 성능을 제공하고 있다. 그러나 머신러닝 기반의 클리핑 제거 방법은 신호 복원 과정의 왜곡으로 인해 클리핑이 심하지 않을 때 출력 신호의 품질이 저하되는 문제를 가진다. 이를 해결하기 위해 클리핑 제거기를 클리핑 감지기와 연동시켜 클리핑 수준에 따라 클리핑 제거 동작을 선택적으로 적용하는 방법을 제안하고, 이를 통해 모든 클리핑 수준에서 우수한 품질의 신호를 출력하도록 한다. 다양한 평가 지표로 클리핑 제거 성능을 측정하였고, 제안 방법이 기존 방법에 비해 모든 클리핑 수준에 대한 평균 성능을 향상시키고, 특히 클리핑 왜곡이 작을 때 성능을 크게 향상시키는 것을 확인하였다.
서은미(Seo, Eunmi),유정찬(Yu, Jeongchan),임유진(Lim, Yujin),박호종(Park, Hochong) 한국방송·미디어공학회 2021 한국방송공학회 학술발표대회 논문집 Vol.2021 No.6
본 논문은 wavenet을 이용하여 음성 신호의 대역폭을 확장하는 새로운 모델을 제안한다. 기존의 대역폭 확장은 주로 주파수 영역에서 진행되며, 확장 대역의 주파수 크기는 높은 성능으로 복원하지만 위상 정보를 정확히 복원할 수 없다는 문제점을 가진다. 이를 해결하기 위해 wavenet 모델을 기반으로 시간 영역에서 저대역과 고대역의 상관관계를 이용하여 고대역 성분을 생성하도록 한다. 제안하는 방법은 모든 동작을 시간 영역에서 수행하며, 제안 방법으로 생성한 고대역 성분이 원음의 고대역 성분과 유사한 것을 확인하였다.