RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      등록 화자 임베딩을 활용한 온디바이스 음성 분리 방법 = On-Device Speech Separation Method Utilizing Registered Speaker Embeddings

      한글로보기

      https://www.riss.kr/link?id=A110108275

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      본 연구는 다중 화자 환경에서 등록된 화자의 음성만을 실시간으로 분리하는 온디바이스 음성 분리 방법을 제안한다. 또한 온디바이스 음성 분리 시스템에 적합한 임베딩 벡터 및 음성 분리 모델을 선정하기 위한 비교 분석을 수행한다. 제안된 시스템은 사용자 등록 모듈, 음성 분리 모듈, 검증 및 전송 모듈, 그리고 Transmission Control Protocol 기반의 Interface Definition Language 세션 전송 구조로 구성된다. 음성 분리 시스템에 적합한 방법 선정을 위해 화자 임베딩에서는 Mel-Frequency Cepstral Coefficients, x-vector, d-vector를 비교하고, 음성 분리에서는 Conv-TasNet, DPRNN-TasNet, and SepFormer를 비교하였다. 다양한 화자 조합 및 소음 환경에서 실험한 결과, x-vector는 평균 88.89%의 높은 화자 검증 정확도를 기록하였고, Conv-TasNet은 음성 명료도, 신호 보존, 처리 속도 측면에서 가장 우수한 성능을 보였다. 본 연구는 다중 사용자 환경에서의 실시간 음성 분리에 있어 온디바이스 기반 음성 분리 시스템의 효율성과 실용 가능성을 확인하였다.
      번역하기

      본 연구는 다중 화자 환경에서 등록된 화자의 음성만을 실시간으로 분리하는 온디바이스 음성 분리 방법을 제안한다. 또한 온디바이스 음성 분리 시스템에 적합한 임베딩 벡터 및 음성 분리...

      본 연구는 다중 화자 환경에서 등록된 화자의 음성만을 실시간으로 분리하는 온디바이스 음성 분리 방법을 제안한다. 또한 온디바이스 음성 분리 시스템에 적합한 임베딩 벡터 및 음성 분리 모델을 선정하기 위한 비교 분석을 수행한다. 제안된 시스템은 사용자 등록 모듈, 음성 분리 모듈, 검증 및 전송 모듈, 그리고 Transmission Control Protocol 기반의 Interface Definition Language 세션 전송 구조로 구성된다. 음성 분리 시스템에 적합한 방법 선정을 위해 화자 임베딩에서는 Mel-Frequency Cepstral Coefficients, x-vector, d-vector를 비교하고, 음성 분리에서는 Conv-TasNet, DPRNN-TasNet, and SepFormer를 비교하였다. 다양한 화자 조합 및 소음 환경에서 실험한 결과, x-vector는 평균 88.89%의 높은 화자 검증 정확도를 기록하였고, Conv-TasNet은 음성 명료도, 신호 보존, 처리 속도 측면에서 가장 우수한 성능을 보였다. 본 연구는 다중 사용자 환경에서의 실시간 음성 분리에 있어 온디바이스 기반 음성 분리 시스템의 효율성과 실용 가능성을 확인하였다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      This study proposes an on-device speech separation method that enables real-time voice extraction of registered speakers in multi-speaker environments. In addition, we conduct a comparative analysis to identify suitable embedding vectors and speech separation models for the on-device speech separation method. The proposed system consists of a user registration module, a speech separation module, a verification and transmission module, and a Transmission Control Protocol-based Interface Definition Language session transmission structure. To identify suitable methods for the speech separation system, we compared Mel-Frequency Cepstral Coefficients, x-vectors, and d-vectors for speaker embedding, and compared Conv-TasNet, DPRNN-TasNet, and SepFormer for speech separation. Experimental results across various speaker combinations and noise conditions showed that x-vector achieved a high average speaker verification accuracy of 88.89%, and Conv-TasNet demonstrated superior overall performance in terms of speech clarity, signal preservation, and processing speed. This study confirms the efficiency and applicability of on-device speech separation systems in real-time multi-user environments.
      번역하기

      This study proposes an on-device speech separation method that enables real-time voice extraction of registered speakers in multi-speaker environments. In addition, we conduct a comparative analysis to identify suitable embedding vectors and speech se...

      This study proposes an on-device speech separation method that enables real-time voice extraction of registered speakers in multi-speaker environments. In addition, we conduct a comparative analysis to identify suitable embedding vectors and speech separation models for the on-device speech separation method. The proposed system consists of a user registration module, a speech separation module, a verification and transmission module, and a Transmission Control Protocol-based Interface Definition Language session transmission structure. To identify suitable methods for the speech separation system, we compared Mel-Frequency Cepstral Coefficients, x-vectors, and d-vectors for speaker embedding, and compared Conv-TasNet, DPRNN-TasNet, and SepFormer for speech separation. Experimental results across various speaker combinations and noise conditions showed that x-vector achieved a high average speaker verification accuracy of 88.89%, and Conv-TasNet demonstrated superior overall performance in terms of speech clarity, signal preservation, and processing speed. This study confirms the efficiency and applicability of on-device speech separation systems in real-time multi-user environments.

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼