http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
강병옥,전형배,이윤경 한국전자통신연구원 2024 ETRI Journal Vol.46 No.1
This paper presents the development of language tutoring systems for nonnative speakers by leveraging advanced end-to-end automatic speech recognition (ASR) and proficiency evaluation. Given the frequent errors in non-native speech, high-performance spontaneous speech recognition must be applied. Our systems accurately evaluate pronunciation and speaking fluency and provide feedback on errors by relying on precise transcriptions. End-to-end ASR is implemented and enhanced by using diverse non-native speaker speech data for model training. For performance enhancement, we combine semisupervised and transfer learning techniques using labeled and unlabeled speech data. Automatic proficiency evaluation is performed by a model trained to maximize the statistical correlation between the fluency score manually determined by a human expert and a calculated fluency score. We developed an English tutoring system for Korean elementary students called EBS AI Peng-Talk and a Korean tutoring system for foreigners called KSI Korean AI Tutor. Both systems were deployed by South Korean government agencies.
원어민 및 외국인 화자의 음성인식을 위한 심층 신경망 기반 음향모델링
강병옥(Kang, Byung Ok),권오욱(Kwon, Oh-Wook) 한국음성학회 2017 말소리와 음성과학 Vol.9 No.2
This paper proposes a new method to train Deep Neural Network (DNN)-based acoustic models for speech recognition of native and foreign speakers. The proposed method consists of determining multi-set state clusters with various acoustic properties, training a DNN-based acoustic model, and recognizing speech based on the model. In the proposed method, hidden nodes of DNN are shared, but output nodes are separated to accommodate different acoustic properties for native and foreign speech. In an English speech recognition task for speakers of Korean and English respectively, the proposed method is shown to slightly improve recognition accuracy compared to the conventional multi-condition training method.
강병옥(Kang Byung Ok),전형배(Jeon Hyeong Bae),박전규(Park Jeon Gyu) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
본 논문은 녹취 데이터를 대상으로 한 음성 인식을 위해 종단형 음성 인식을 적용하여 수행한 연구 및 실험결과를 기술한다. 녹취 데이터는 콜센터 고객 상담 및 여러 형태의 회의 중 발화된 화자의 음성을 녹음하여 기록한 저장데이터로서, 음성 인식 서비스를 명시적으로 의식하여 발화된 음성에 비해 발화 반복, 간투어 등 다양한 자연어 발화현상, 부정확한 발음 및 빠른 발화 속도 등 음성 인식 성능 저하의 요인이 되는 다양한 특성을 가지고 있다. 이에, 최근 학계와 산업계에서 많은 연구가 수행 되고 있는 종단형 음성인식 기술을 녹취 데이터 인식에 적용하여 기존 LSTM-RNN기반 하이브리드 구조 모델과의 비교 실험을 수행하고 여러 학습 조건에서의 성능 분석 및 개선 사항을 도출하였다.
희소 데이터 영역 음성 인식을 위한 전이학습 방법 연구
강병옥(Kang Byung Ok),전형배(Jeon Hyeong Bae),박전규(Park Jeon Gyu) 한국통신학회 2021 한국통신학회 학술대회논문집 Vol.2021 No.11
본 논문은 희소 데이터 영역을 대상으로 한 음성 인식을 목적으로 데이터 증강형 전이 항습 방법을 제안하고 관련 실험 결과를 기술한다. 제안된 방법은 대용량 음성수집이 어려운 희소 데이터 영역을 인식 대상으로 하는 도메인에서의 음성 인식을 위해, 상대적으로 수집이 쉬운 대용량의 타 영역 음성 코퍼스를 이용하여 희소 데이터 영역과 비슷한 화자 및 채널/잡음 등의 음향적 특성을 갖는 음성데이터를 증강하고, 증강된 데이터와 대용량 음성 코퍼스를 입력으로 교사-학습 기반 전이학습을 수행한다. 검증을 위해 AMI 코퍼스를 대상으로 실험을 수행하였고, 기존의 교사/학생 기반 전이학습과 비교한 실험 결과 개선된 성능을 확인할 수 있었다.
강병옥 ( Byung-ok Kang ),정호영 ( Ho-young Jung ),이윤근 ( Yun-keun Lee ) 한국정보처리학회 2007 한국정보처리학회 학술대회논문집 Vol.14 No.1
본 논문에서는 환경변화에 대해 강인하게 동작하는 음성인식 시스템을 위해 잡음적응 훈련과 변별학습 방식을 결합한 형태의 환경적응 방식을 제안한다. 다중환경 훈련과 잡음제거방식을 결합한 형태인 잡음적응 훈련 방식은 음성인식을 위한 MCE (Minimum Classification Error)의 목적과는 거리가 있고, 음성인식 시스템이 사용되는 모든 환경을 반영하는 것은 현실적으로 어렵다는 점에서 한계가 있다. 이에 잡음적응 훈련방식으로 훈련된 기본 음향모델을 목적환경에서 수집한 소량의 데이터를 이용한 변별학습을 통해 환경적응 모델로 변환함으로써 이러한 단점을 보완할 수 있는 잡음적응 변별학습을 이용한 훈련방식을 제안한다.