http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
ICA와 DNN을 이용한 방송 드라마 콘텐츠에서 음악구간 검출 성능
허운행(Heo, Woon-Haeng),장병용(Jang, Byeong-Yong),조현호(Jo, Hyeon-Ho),김정현(Kim, Jung-Hyun),권오욱(Kwon, Oh-Wook) 한국음성학회 2018 말소리와 음성과학 Vol.10 No.3
We propose to use independent component analysis (ICA) and deep neural network (DNN) to detect music sections in broadcast drama contents. Drama contents mainly comprise silence, noise, speech, music, and mixed (speech+music) sections. The silence section is detected by signal activity detection. To detect the music section, we train noise, speech, music, and mixed models with DNN. In computer experiments, we used the MUSAN corpus for training the acoustic model, and conducted an experiment using 3 hours’ worth of Korean drama contents. As the mixed section includes music signals, it was regarded as a music section. The segmentation error rate (SER) of music section detection was observed to be 19.0%. In addition, when stereo mixed signals were separated into music signals using ICA, the SER was reduced to 11.8%.
허운행,윤성식,허성준,Heo, Un-Haeng,Yun, Seong-Sik,Heo, Seong-Jun 재료연구소 2010 機械와 材料 Vol.22 No.3
최근 전자소자의 제조공정에 있어서 인쇄전자를 적용하여 고가이면서 화학물질이 많이 배출되는 기존의 제조공정을 대체하기 위한 연구가 활발하게 이루어지고 있다. 인쇄전자를 적용하기 위해서는 기존 공종 대비 생산비의 절감과 대량생산을 요구하고 있으며, 그 요구를 만족시킬 수 있는 인쇄전자 기술로는 롤투롤(R2R, Roll to Roll) 인쇄방식이 대표적이라 할 수 있다. 롤투롤 인쇄방식과 그라비아(Gravure)/그라비아옵셋(Gravure offset) 인쇄방법을 적용하면 낮은 비용으로 대량의 전자소자 생산에 쉽게 접근 할 수 있다. (주)펨스는 인쇄전자 기술의 활성화를 위하여 롤투롤-그라비아/그라비아옵셋 인쇄를 적용한 인쇄전자소자용 인쇄, 코팅장비를 개발 제작하고 있다.
히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식
허운행(Heo, Woon-Haeng),권오욱(Kwon, Oh-Wook) 한국음성학회 2017 말소리와 음성과학 Vol.9 No.2
We propose a new method to reduce emotion recognition errors caused by variation in speaker characteristics and speech rate. Firstly, for reducing variation in speaker characteristics, we adjust features from a test speaker to fit the distribution of all training data by using the histogram equalization (HE) algorithm. Secondly, for dealing with variation in speech rate, we augment the training data with speech generated in various speech rates. In computer experiments using EMO-DB, KRN-DB and eNTERFACE-DB, the proposed method is shown to improve weighted accuracy relatively by 34.7%, 23.7% and 28.1%, respectively.
배경음악 분리를 위한 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet
허운행,김혜미,권오욱,Heo, Woon-Haeng,Kim, Hyemi,Kwon, Oh-Wook 한국음향학회 2019 韓國音響學會誌 Vol.38 No.6
방송 콘텐츠의 혼합 신호에서 배경음악 신호를 분리하는 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet을 제안한다. 확장된 합성곱은 스펙트로그램의 다양한 스케일 문맥 정보를 학습하기 용이하도록 한다. 컴퓨터 모의실험 결과, 제안한 구조는 신호대잡음비(Signal to Noise Ratio, SNR) 0 dB, -10 dB의 환경에서 각각 0.15 dB, 0.27 dB의 신호대왜곡비(Signal to Distortion Ratio, SDR)를 개선하였다. We propose a multi-band multi-scale DenseNet with dilated convolution that separates background music signals from broadcast content. Dilated convolution can learn the multi-scale context information represented by spectrogram. In computer simulation experiments, the proposed architecture is shown to improve Signal to Distortion Ratio (SDR) by 0.15 dB and 0.27 dB in 0dB and -10 dB Signal to Noise Ratio (SNR) environments, respectively.