본 논문에서는 DNN(Deep Neural Network) 기반 오디오 표식을 위한 데이터 증강 방법을 연구한다. 본 시스템에서는 오디오 신호를 멜-스펙트로그램으로 변환하여 오디오 표식을 위한 심층신경망의 ...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A106149435
김범준 (연세대학교 전산학과) ; 문현기 (연세대학교 전기전자공학부) ; 박성욱 (강릉원주대학교) ; 박영철 (연세대학교) ; Kim, Bum-Jun ; Moon, Hyeongi ; Park, Sung-Wook ; Park, Young cheol
2018
Korean
KCI등재,SCOPUS,ESCI
학술저널
475-482(8쪽)
0
0
상세조회0
다운로드국문 초록 (Abstract)
본 논문에서는 DNN(Deep Neural Network) 기반 오디오 표식을 위한 데이터 증강 방법을 연구한다. 본 시스템에서는 오디오 신호를 멜-스펙트로그램으로 변환하여 오디오 표식을 위한 심층신경망의 ...
본 논문에서는 DNN(Deep Neural Network) 기반 오디오 표식을 위한 데이터 증강 방법을 연구한다. 본 시스템에서는 오디오 신호를 멜-스펙트로그램으로 변환하여 오디오 표식을 위한 심층신경망의 입력으로 사용한다. 적은 수의 훈련 데이터를 사용하는 경우 발생하는 문제를 해결하기 위해, 타임 스트레칭, 피치 변화, 동적 영역 압축, 블록 혼합 등의 방법을 사용하여 훈련 데이터를 증강시켰다. 사용된 데이터 증강 기법의 최적 파라미터와 최적 조합을 오디오 표식 시뮬레이션을 통해 확인하였다.
다국어 초록 (Multilingual Abstract)
In this paper, we present a study on data augmentation methods for DNN (Deep Neural Network)-based audio tagging. In this system, an audio signal is converted into a mel-spectrogram and used as an input to the DNN for audio tagging. To cope with the p...
In this paper, we present a study on data augmentation methods for DNN (Deep Neural Network)-based audio tagging. In this system, an audio signal is converted into a mel-spectrogram and used as an input to the DNN for audio tagging. To cope with the problem associated with a small number of training data, we augment the training samples using time stretching, pitch shifting, dynamic range compression, and block mixing. In this paper, we derive optimal parameters and combinations for the augmentation methods through audio tagging simulations.
참고문헌 (Reference)
1 Dolby E, "Standards and practices for authoring Dolby Digital and Dolby E bitstreams" Dolby Labortories, Inc 2002
2 S. M. Beitzel, "On Understanding And Classifying Web Queries" Illinois Institute of Technology 2006
3 R. Seizel, "Large-scale weakly labeled semi-supervised sound event detection"
4 G. E. Dahl, "Improving DNNs for LVCSR using rectified linear units and dropout" 8609-8613, 2013
5 S. Mum, "Generative adversarial network based acoustic scene training set augmentation and selection using SVM hyper-plane" 93-97, 2017
6 D. Giannoulis, "Detection and classification of acoustic scenes and events: an IEEE AASP challenge" 1-4, 2013
7 J. Salamon, "Deep convolutional neural networks and data augmentation for environmental sound classification" 24 : 279-283, 2016
8 P. Cano, "Content-based music audio recommendation" 211-212, 2005
9 E. Wold, "Content-based classification, search, and retrieval of audio" 3 : 27-36, 1996
10 P. Foster, "CHiME-home: A dataset for sound source recognition in a domestic environment" 15 : 2015
1 Dolby E, "Standards and practices for authoring Dolby Digital and Dolby E bitstreams" Dolby Labortories, Inc 2002
2 S. M. Beitzel, "On Understanding And Classifying Web Queries" Illinois Institute of Technology 2006
3 R. Seizel, "Large-scale weakly labeled semi-supervised sound event detection"
4 G. E. Dahl, "Improving DNNs for LVCSR using rectified linear units and dropout" 8609-8613, 2013
5 S. Mum, "Generative adversarial network based acoustic scene training set augmentation and selection using SVM hyper-plane" 93-97, 2017
6 D. Giannoulis, "Detection and classification of acoustic scenes and events: an IEEE AASP challenge" 1-4, 2013
7 J. Salamon, "Deep convolutional neural networks and data augmentation for environmental sound classification" 24 : 279-283, 2016
8 P. Cano, "Content-based music audio recommendation" 211-212, 2005
9 E. Wold, "Content-based classification, search, and retrieval of audio" 3 : 27-36, 1996
10 P. Foster, "CHiME-home: A dataset for sound source recognition in a domestic environment" 15 : 2015
11 M. Schuster, "Bidirectional recurrent neural networks" 45 : 2673-2681, 1997
12 J. F. Gemmeke, "Audio set: An ontology and human-labeled dataset for audio events" 776-780, 2017
13 M. Hilsamer, "A statistical approach to automated offline dynamic processing in the audio mastering process" 35-40, 2014
정현파 신호 주파수 추정 알고리즘의 추정 정확도 비교 연구
합성곱 신경망 기반 환경잡음에 강인한 교통 소음 분류 모델
교사 학생 심층신경망을 활용한 다채널 원거리 화자 인증
빔공간 다채널 비음수 행렬 분해에 기초한 잔향에서의 지속파 능동 소나 표적 탐지 기법에 대한 연구
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2026 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2020-01-01 | 평가 | 등재학술지 유지 (재인증) | |
2017-01-01 | 평가 | 등재학술지 유지 (계속평가) | |
2013-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2010-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2008-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2006-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2004-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2001-07-01 | 평가 | 등재학술지 선정 (등재후보2차) | |
1999-01-01 | 평가 | 등재후보학술지 선정 (신규평가) |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.23 | 0.23 | 0.22 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.2 | 0.18 | 0.398 | 0.07 |