RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      콘퍼머를 이용한 한국어 문장 음성 인식

      한글로보기

      https://www.riss.kr/link?id=T16688503

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      ‘지구촌’의 세계 경제가 발전함에 따라 한국과 다른 나라 간의 경제, 문화 교류가 나날이 증가하고 있으며, 한국어 학습에 대한 외국인의 수요가 급격히 증가하고 있다. 그러나 외국인 한국어 학습 환경과 교육 여건의 한계로 인해 외국인 학습자는 일반적으로 말하기 학습이 어려운 상황이다. 컴퓨터 과학과 기술이 발전하고 언어 공부와 학습방법의 진보로 컴퓨터 보조 언어 학습 기술은 이러한 문제를 해결할 수 있게 되었다.
      본 논문에서는 학습자의 말하기 능력과 발음 정확도를 자동으로 분석하고 평가할 수 있는 한국어 발음 평가 학습 보조 시스템을 제안하였다. 트랜스포머(Transfomer)는 긴 시퀀스 종속성을 추출하는 데 더 효과적인 반면에 컨볼루션은 로컬 기능 추출과 표현을 잘 할 수 있다. 제안하는 콘포머(Conformer) 음성 인식모델은 Transformer의 효과를 향상시키기 위해 Convolution을 사용하였다. 긴 시퀀스 및 로컬 특징 추출을 위한 모델을 개선하기 위해 Transformer의 인코더 레이어에 컨볼루션을 추가한다. 제안된 방법에서 Zeroth-korean 테스트세트에서 9.44%의 CER을 달성했다. 시스템의 성능을 분석하기 위하여 CNN-CTC을 적용한 시스템과 비교하였고, 더 좋은 결과를 보이는 것을 확인 할 수 있었다. 또한 긴 음성 인식에 대한 CNN-CTC 네트워크 모델의 한계와 낮은 인식률 문제를 해결할 수 있었다. 본 연구를 통해 한국어 음성 인식에 있어 콘포머의 성능이 우수함을 확인하였다.
      번역하기

      ‘지구촌’의 세계 경제가 발전함에 따라 한국과 다른 나라 간의 경제, 문화 교류가 나날이 증가하고 있으며, 한국어 학습에 대한 외국인의 수요가 급격히 증가하고 있다. 그러나 외국인 한...

      ‘지구촌’의 세계 경제가 발전함에 따라 한국과 다른 나라 간의 경제, 문화 교류가 나날이 증가하고 있으며, 한국어 학습에 대한 외국인의 수요가 급격히 증가하고 있다. 그러나 외국인 한국어 학습 환경과 교육 여건의 한계로 인해 외국인 학습자는 일반적으로 말하기 학습이 어려운 상황이다. 컴퓨터 과학과 기술이 발전하고 언어 공부와 학습방법의 진보로 컴퓨터 보조 언어 학습 기술은 이러한 문제를 해결할 수 있게 되었다.
      본 논문에서는 학습자의 말하기 능력과 발음 정확도를 자동으로 분석하고 평가할 수 있는 한국어 발음 평가 학습 보조 시스템을 제안하였다. 트랜스포머(Transfomer)는 긴 시퀀스 종속성을 추출하는 데 더 효과적인 반면에 컨볼루션은 로컬 기능 추출과 표현을 잘 할 수 있다. 제안하는 콘포머(Conformer) 음성 인식모델은 Transformer의 효과를 향상시키기 위해 Convolution을 사용하였다. 긴 시퀀스 및 로컬 특징 추출을 위한 모델을 개선하기 위해 Transformer의 인코더 레이어에 컨볼루션을 추가한다. 제안된 방법에서 Zeroth-korean 테스트세트에서 9.44%의 CER을 달성했다. 시스템의 성능을 분석하기 위하여 CNN-CTC을 적용한 시스템과 비교하였고, 더 좋은 결과를 보이는 것을 확인 할 수 있었다. 또한 긴 음성 인식에 대한 CNN-CTC 네트워크 모델의 한계와 낮은 인식률 문제를 해결할 수 있었다. 본 연구를 통해 한국어 음성 인식에 있어 콘포머의 성능이 우수함을 확인하였다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      With the development of the global economy in the "global village" and the increase in economic and cultural exchanges between Korea and other countries, the demand for foreigners to learn Korean is rapidly increasing. However, it has been considered difficult for foreign language learners to learn to speak due to the limitations of foreign language learning environment and education. With the development of computer science, computing technology and the advancement of language learning methods, computer-assisted language learning techniques have been able to solve these problems. Therefore, in this paper, I propose a Korean pronunciation assessment system that can automatically analyze and assess learners' speaking ability and pronunciation accuracy. The transformer model is known to be more effective in extracting long sequence dependencies, while convolution is good for extracting local features. The proposed Conformer speech recognition model uses convolution to improve the effectiveness of the Transformer and added to the encoder layer of the Transformer. According to the study, Conformer achieved a CER of 9.44% on the Zeroth-korean test set. A comparison with CNN-CTC model was done and Conformer model showed better performance. And it solves the problem of CNN-CTC network’s limitations and low recognition rate for long speech recognition. In summary, it can be said that this paper presents an academic research agenda for the development of speech recognition, which can be considered effective and of practical importance.
      번역하기

      With the development of the global economy in the "global village" and the increase in economic and cultural exchanges between Korea and other countries, the demand for foreigners to learn Korean is rapidly increasing. However, it has been considered ...

      With the development of the global economy in the "global village" and the increase in economic and cultural exchanges between Korea and other countries, the demand for foreigners to learn Korean is rapidly increasing. However, it has been considered difficult for foreign language learners to learn to speak due to the limitations of foreign language learning environment and education. With the development of computer science, computing technology and the advancement of language learning methods, computer-assisted language learning techniques have been able to solve these problems. Therefore, in this paper, I propose a Korean pronunciation assessment system that can automatically analyze and assess learners' speaking ability and pronunciation accuracy. The transformer model is known to be more effective in extracting long sequence dependencies, while convolution is good for extracting local features. The proposed Conformer speech recognition model uses convolution to improve the effectiveness of the Transformer and added to the encoder layer of the Transformer. According to the study, Conformer achieved a CER of 9.44% on the Zeroth-korean test set. A comparison with CNN-CTC model was done and Conformer model showed better performance. And it solves the problem of CNN-CTC network’s limitations and low recognition rate for long speech recognition. In summary, it can be said that this paper presents an academic research agenda for the development of speech recognition, which can be considered effective and of practical importance.

      더보기

      목차 (Table of Contents)

      • CONTENTS
      • LIST OF TABLES ⅳ
      • LIST OF FIGURES ⅴ
      • CONTENTS
      • LIST OF TABLES ⅳ
      • LIST OF FIGURES ⅴ
      • 1. Introduction 1
      • 1.1 Research background 1
      • 1.2 The status of speech recognition 3
      • 1.3 Research content and Thesis organization 7
      • 1.3.1 Research content 7
      • 1.3.2 Thesis organization 8
      • 2. Technical background and related research 9
      • 2.1 Basics of Speech Recognition 9
      • 2.2 Pre-processing of speech signals 10
      • 2.2.1 Pre-emphasis 11
      • 2.2.2 Framing 11
      • 2.2.3 Windowing 12
      • 2.3 Features and Extraction of Speech Signals 13
      • 2.4 Transformer 15
      • 2.4.1 Self-Attention 17
      • 2.4.2 Multi-Head Attention 18
      • 2.5 Korean Syllable Unit 21
      • 3. Korean Speech Recognition Using Conformer 22
      • 3.1 Comparison between Conformer and CNN-CTC 22
      • 3.2 Conformer-Based Acoustic Model 24
      • 3.2.1 Post-Norm and Pre-Norm 25
      • 3.2.2 Multi-head Self-Attention Module 26
      • 3.2.3 Convolutional layer 27
      • 3.3.4 FeedForword Model 29
      • 3.3 Evaluation Criteria for results 31
      • 3.4 Evaluation of Korean pronunciation 32
      • 4. Experiment and Analysis 33
      • 4.1 Experimental preparation 33
      • 4.1.1 Experimental environment 33
      • 4.1.2 Experimental dataset 33
      • 4.1.3 Experimental parameters 34
      • 4.2 Experimental results and analysis 35
      • 4.2.1 Comparison with CNN-CTC network model 38
      • 4.2.2 Comparison of different conformer blocks 41
      • 5. Conclusion 42
      • References 43
      • ABSTRACT 47
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼