RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재 SCOPUS

      Deep neural network 기반 오디오 표식을 위한 데이터 증강 방법 연구 = Study on data augmentation methods for deep neural network-based audio tagging

      한글로보기

      https://www.riss.kr/link?id=A106149435

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      본 논문에서는 DNN(Deep Neural Network) 기반 오디오 표식을 위한 데이터 증강 방법을 연구한다. 본 시스템에서는 오디오 신호를 멜-스펙트로그램으로 변환하여 오디오 표식을 위한 심층신경망의 ...

      본 논문에서는 DNN(Deep Neural Network) 기반 오디오 표식을 위한 데이터 증강 방법을 연구한다. 본 시스템에서는 오디오 신호를 멜-스펙트로그램으로 변환하여 오디오 표식을 위한 심층신경망의 입력으로 사용한다. 적은 수의 훈련 데이터를 사용하는 경우 발생하는 문제를 해결하기 위해, 타임 스트레칭, 피치 변화, 동적 영역 압축, 블록 혼합 등의 방법을 사용하여 훈련 데이터를 증강시켰다. 사용된 데이터 증강 기법의 최적 파라미터와 최적 조합을 오디오 표식 시뮬레이션을 통해 확인하였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      In this paper, we present a study on data augmentation methods for DNN (Deep Neural Network)-based audio tagging. In this system, an audio signal is converted into a mel-spectrogram and used as an input to the DNN for audio tagging. To cope with the p...

      In this paper, we present a study on data augmentation methods for DNN (Deep Neural Network)-based audio tagging. In this system, an audio signal is converted into a mel-spectrogram and used as an input to the DNN for audio tagging. To cope with the problem associated with a small number of training data, we augment the training samples using time stretching, pitch shifting, dynamic range compression, and block mixing. In this paper, we derive optimal parameters and combinations for the augmentation methods through audio tagging simulations.

      더보기

      참고문헌 (Reference)

      1 Dolby E, "Standards and practices for authoring Dolby Digital and Dolby E bitstreams" Dolby Labortories, Inc 2002

      2 S. M. Beitzel, "On Understanding And Classifying Web Queries" Illinois Institute of Technology 2006

      3 R. Seizel, "Large-scale weakly labeled semi-supervised sound event detection"

      4 G. E. Dahl, "Improving DNNs for LVCSR using rectified linear units and dropout" 8609-8613, 2013

      5 S. Mum, "Generative adversarial network based acoustic scene training set augmentation and selection using SVM hyper-plane" 93-97, 2017

      6 D. Giannoulis, "Detection and classification of acoustic scenes and events: an IEEE AASP challenge" 1-4, 2013

      7 J. Salamon, "Deep convolutional neural networks and data augmentation for environmental sound classification" 24 : 279-283, 2016

      8 P. Cano, "Content-based music audio recommendation" 211-212, 2005

      9 E. Wold, "Content-based classification, search, and retrieval of audio" 3 : 27-36, 1996

      10 P. Foster, "CHiME-home: A dataset for sound source recognition in a domestic environment" 15 : 2015

      1 Dolby E, "Standards and practices for authoring Dolby Digital and Dolby E bitstreams" Dolby Labortories, Inc 2002

      2 S. M. Beitzel, "On Understanding And Classifying Web Queries" Illinois Institute of Technology 2006

      3 R. Seizel, "Large-scale weakly labeled semi-supervised sound event detection"

      4 G. E. Dahl, "Improving DNNs for LVCSR using rectified linear units and dropout" 8609-8613, 2013

      5 S. Mum, "Generative adversarial network based acoustic scene training set augmentation and selection using SVM hyper-plane" 93-97, 2017

      6 D. Giannoulis, "Detection and classification of acoustic scenes and events: an IEEE AASP challenge" 1-4, 2013

      7 J. Salamon, "Deep convolutional neural networks and data augmentation for environmental sound classification" 24 : 279-283, 2016

      8 P. Cano, "Content-based music audio recommendation" 211-212, 2005

      9 E. Wold, "Content-based classification, search, and retrieval of audio" 3 : 27-36, 1996

      10 P. Foster, "CHiME-home: A dataset for sound source recognition in a domestic environment" 15 : 2015

      11 M. Schuster, "Bidirectional recurrent neural networks" 45 : 2673-2681, 1997

      12 J. F. Gemmeke, "Audio set: An ontology and human-labeled dataset for audio events" 776-780, 2017

      13 M. Hilsamer, "A statistical approach to automated offline dynamic processing in the audio mastering process" 35-40, 2014

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2026 평가예정 재인증평가 신청대상 (재인증)
      2020-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2017-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2013-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2010-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2006-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2004-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2001-07-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      1999-01-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.23 0.23 0.22
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.2 0.18 0.398 0.07
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼