RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        이집트인 학습자의 한국어 모음 지각과 산출

        사라 벤자민(Sarah Benjamin),이호영(Ho-Young Lee) 한국음성학회 2021 말소리와 음성과학 Vol.13 No.4

        이 연구는 이집트인 한국어 학습자를 대상으로 하여 이들이 한국어 모음을 어떻게 지각하고 범주화하며, 이들이 발음한 한국어 모음을 한국인들이 어떻게 지각하는지 밝히고, 이를 토대로 이집트인 학습자들의 한국어 모음 범주화가 그들의 한국어 모음 지각과 산출에 어떤 영향을 미치는지 밝히는 것을 목적으로 한다. 실험 1에서는 이집트인 학습자가 한국어 모음을 어떻게 지각하는지 알아보기 위해 이집트인 학습자 53명을 대상으로 하여 한국인이 발음한 한국어 자극 단어를 듣고 어느 단어를 들었는지 객관식으로 고르는 과제를 수행하게 하였고, 실험 2에서는 이집트인 학습자들이 발음한 한국어 모음을 한국인들이 어떻게 지각하는지 밝히기 위해 이집트인 학습자 9명이 산출한 자극 단어 117(13개×9명)개를 한국인들에게 들려주고, 어느 단어를 들었는지 객관식으로 고르게 한 다음 모음의 발음이 원어민 수준에 얼마나 근접하는지 5점 척도로 평가하도록 하였다. 실험 결과 이집트어에 존재하지 않는 “새로운” 한국어 모음은 별도의 범주를 쉽게 형성하여 잘 지각된 반면 산출이 잘 되는 새로운 모음도 있었고, 산출에서 어려움을 겪는 모음도 있었다. 반면에 이집트어 음소와 “비슷한” 한국어 음소는 비교적 잘 산출되지만 지각하는 데는 큰 어려움이 있다는 사실도 확인할 수 있었다. 이 연구 결과를 토대로 기존의 음성학습모델(speech learning model)과 지각동화모델(perceptual assimilation model)이 제2언어 학습자들의 제2언어 음성 지각을 잘 설명해 주지만 음성 산출을 설명하는 데 미흡함이 있어 이에 대한 보완이 필요함을 논의했다. This study aims to discuss how Egyptian learners of Korean perceive and categorize Korean vowels, how Koreans perceive Korean vowels they pronounce, and how Egyptian learners’ Korean vowel categorization affects their perception and production of Korean vowels. In Experiment 1, 53 Egyptian learners were asked to listen to Korean test words pronounced by Koreans and choose the words they had listened to among 4 confusable words. In Experiment 2, 117 sound files (13 test words×9 Egyptian learners) recorded by Egyptian learners were given to Koreans and asked to select the words they had heard among 4 confusable words. The results of the experiments show that “new” Korean vowels that do not have categorizable ones in Egyptian Arabic easily formed new categories and were therefore well identified in perception and relatively well pronounced, but some of them were poorly produced. However, Egyptian learners poorly distinguished “similar” Korean vowels in perception, but their pronunciation was relatively well identified by native Koreans. Based on the results of this study, we argued that the Speech Learning Model (SLM) and Perceptual Assimilation Model (PAM) explain the L2 speech perception well, but they are insufficient to explain L2 speech production and therefore need to be revised and extended to L2 speech production.

      • KCI등재

        L2 억양에서 나타나는 모국어 간섭과 언어 보편적 간섭현상의 상호작용: 피치대역을 중심으로

        윤영숙(Youngsook Yune) 한국음성학회 2021 말소리와 음성과학 Vol.13 No.4

        본 연구는 제 2언어 억양습득 과정에서 나타나는 언어 보편적 간섭현상인 피치대역(음역) 축소현상과 모국어 간섭현상이 어떤 양상으로 상호작용하며 한국어 습득과정에서 어떤 순서로 나타나는지 중국인 한국어 학습자들을 통해 살펴보았다. 본 연구에는 7명의 한국어 원어민 화자와 초․중․고급 수준의 중국인 한국어 학습자 각 10명 총 37명이 발화 실험에 참여하였다. 연구 참여자들은 난이도가 다른 한국어 담화 4개와 이를 중국어로 번역한 중국어 담화 4개를 낭독 발화하였다. 한국어화자와 중국인 학습자들이 산출한 음성자료는 음성분석 프로그램 Praat을 사용하여 각 문장별로 Pitch span, Pitch level, Pitch dynamic quotient(PDQ), 왜도와 첨도를 측정하였고 이후 언어 간 분석, 그룹 간 분석, 그룹 내 분석을 통해 두 현상의 상호작용양상을 살펴보았다. 언어 간 분석결과 중국어는 한국어보다 높은 Pitch span과 Pitch level로 특징지어졌다. 이를 바탕으로 초․중․고급 중국인 학습자들의 한국어 발화문에 대한 그룹 간 분석을 실시하였다. 그 결과 초급과 중급 학습자들에게서는 모국어 간섭보다는 음역 축소현상이 두드러지게 나타났으며 고급 학습자들은 음역 축소현상이 완화되어 한국 화자에 근접한 양상을 보여주었다. 중국인 학습자들이 발화한 목표어인 한국어와 모국어인 중국어 문장을 대상으로 한 그룹 내 분석에서도 숙달도가 높을수록 모국어와 목표어 간 피치 편차가 줄어들어 음역 축소현상이 완화되었다. 문장 내 피치 변동 범위를 파악하기 위한 PDQ분석에서 중국어 문장은 한국어 문장보다 음역 변동범위가 크다는 것을 알 수 있었다. 그룹 간 분석에서는 초․중급 학습자들의 PDQ가 한국어와 중국어보다 현저히 낮은 값을 보였다. 고급학습자들도 한국어나 중국어보다 낮은 수치를 보였으나 한국어에 근접한 양상으로 나타났다. 이상의 결과를 바탕으로 숙달도가 낮은 화자일수록 음역 축소 현상이 두드러지게 나타나며 고급 화자의 경우 목표어인 한국어와 유사한 양상으로 실현됨을 알 수 있었다. 따라서 본 연구의 분석 대상인 음성학적 층위에서는 모국어 간섭현상이 뚜렷하게 관찰되지 않았다. In this study, we examined the interactive aspects between pitch reduction phenomena considered a universal language phenomenon and native language interference in the production of L2 intonation performed by Chinese learners of Korean. To investigate their interaction, we conducted an acoustic analysis using acoustic measures such as pitch span, pitch level, pitch dynamic quotient, skewness, and kurtosis. In addition, the correlation between text comprehension and pitch was examined. The analyzed material consisted of four Korean discourses containing five and seven sentences of varying difficulty. Seven Korean native speakers and thirty Chinese learners who differed in their Korean proficiency participated in the production test. The results, for differences by language, showed that Chinese had a more expanded pitch span, and a higher pitch level than Korean. The analysis between groups showed that at the beginner and intermediate levels, pitch reduction was prominent, i.e., their Korean was characterized by a compressed pitch span, low pitch level, and less sentence internal pitch variation. Contrariwise, the pitch use of advanced speakers was most similar to Korean native speakers. There was no significant correlation between text difficulty and pitch use. Through this study, we observed that pitch reduction was more pronounced than native language interference in the phonetic layer.

      • KCI등재

        트랜스포머 기반 모델의 한국어 음성인식 성능 비교 연구

        오창한,김민서,박기영,송화전 한국음성학회 2024 말소리와 음성과학 Vol.16 No.3

        트랜스포머 모델은 텍스트, 영상 등 순차적 입력 데이터에서 의미 있는 정보를 추출하는 데 뛰어난 성과를 보여주었으며, 음성인식 분야에서도 종단형 모델로서 주목받고 있다. 본 연구에서는 트랜스포머 음성인식 모델과 이를개선한 컨포머, E-브랜치포머 모델을 한국어 음성인식에 적용하여 성능을 비교하였다. AIHub에 공개된 한국어 음성 데이터를 활용하여 약 7,500시간의 훈련셋을 마련하고, ESPnet 툴킷을 활용하여 트랜스포머, 컨포머, E-브랜치포머 모델을 훈련하고 성능을 평가하였다. 또한, 인식 단위로 음절과 서브워드를 사용하는 경우를 비교하고, Byte Pair Encoding의 토큰 수 변화에 따른 성능 차이를 분석하였다. 실험 결과, E-브랜치포머가 한국어 음성인식에서 가장 우수한 성능을 보였으며, 컨포머는 트랜스포머보다 우수하였으나 긴 발화에 대해서는 성능 저하가 확인되었다. 이러한 성능 저하의 원인으로 인코더-디코더의 크로스 어텐션 정렬 과정에 오차가 발생함을 확인하였다. 또한, 서브워드 인식 단위를 사용하면서 토큰 수를 조정할 때의 성능 변화에 대한 분석을 통해 최적의 설정을 찾고자 하였다. 본 연구는 모델의 정확도와 처리 속도를 종합적으로 평가하였으며, 이를 통해 한국어 음성인식의 효율성을 극대화할 수 있는 방법을 모색하였다. 대규모 한국어 음성인식 모델의 학습과 컨포머의 인식 오류 개선 연구에 기여할 수 있을 것으로 기대된다. 또한, 향후 연구 방향으로는 다양한 한국어 음성 데이터셋을 활용한 추가 실험과 더불어, 컨포머의 구조적 개선을 통한 인식 성능 향상을 목표로 한다. Transformer models have shown remarkable performance in extracting meaningful information from sequential input data such as text and images, and are gaining attention as end-to-end models for speech recognition. This study compared the performances of the Transformer speech recognition model and its enhanced versions, the Conformer and E-Branchformer, when applied to Korean speech recognition. Using Korean speech data from AIHub, we prepared a training set of approximately 7,500 hours and evaluated the models using the ESPnet toolkit. Additionally, we compared syllables and subwords as recognition units and analyzed the performance differences with changes in the number of tokens using Byte Pair Encoding. The results showed that the E-Branchformer achieved the best performance in Korean speech recognition and Conformer outperformed Transformer but degraded in performance for long utterances owing to cross-attention alignment errors. We aimed to determine the optimal settings by analyzing the performance changes with subword token adjustments. This study comprehensively evaluated model accuracy and processing speed to maximize the efficiency of Korean speech recognition. This is expected to contribute to the training of large-scale Korean speech recognition models and improve Conformer recognition errors. Future research should include additional experiments with diverse Korean speech datasets and enhance the recognition performance through structural improvements in the Conformer.

      • KCI등재

        중국인 한국어학습자들의 한국어 한자어 피치 실현 양상

        윤영숙 한국음성학회 2024 말소리와 음성과학 Vol.16 No.4

        본 연구에서는 중국어와 동형동의 관계에 있는 한국어 한자어의 피치를 중국인 한국어학습자들이 어떤 양상으로 산출하는지 보국어 간섭과 피치 대역 축소라는 L2 억양의 보편적 특징을 바탕으로 살펴보았다. 한국어와 중국어는 운율 유형론적으로 다른 언어군에 속한다. 중국어는 대표적인 성조언어로 모든 음절이 고유의 성조를 지니며 어휘 성조는 특별한 경우를 제외하고는 문장 억양에도 유지된다. 그러나 한국어는 비성조언어로 성조가 어휘의 의미를 구별하는 음운론적 기능을 수행하지 않는다. 이러한 성조언어의 특성이 한국어를 학습하는 중국인학습자들의 한국어 한자어에 어떤 양상으로 반영되는지 음운론적·음성학적으로 그 특성을 분석하였다. 우선 음운론적 분석에서는 각 음절의 피치형태를 바탕으로 모국어 성조의 간섭여부를 조사하였다. 모국어 영향은 4성에서 가장 많이 관찰되었다. 그리고 4성의 성조가 한국어한자어 발음에서 일종의 default 피치로 작용할 수 있음을 알았다. 음성학적 분석에서는 pitch level, pitch span, PDQ(pitch dynamism quotient) 값을 통해 해당 음절의 음높이와 피치변동의 폭, 피치 변동의 추이를 살펴보았다. 결과를 살펴보면 Pitch level에서는 모국어의 영향보다는 언어 보편적 양상인 피치대역 축소 현상이, pitch span과 PDQ 값에서는 모국어 영향이 상대적으로 우세하게 작용하는 것으로 나타났다. 따라서 중국인 한국어학습자들의 한국어 한자어는 제한된 피치대역에서 피치의 국소적 변동률이 크다는 특징으로 설명될 수 있다. 그리고 본 연구를 통해 한국어 숙달도가 상대적으로 높은 중·고급 학습자들의 한국어 한자어 피치에서 모국어 간섭과 피치축소라는 보편적 영향이 공존함을 관찰할 수 있었다. 그러나 모국어 간섭과 피치축소라는 두 요소의 영향은 제한적 범위에서 나타남을 알 수 있었는데 이는 음절 성조 형태와 평균 pitch level, pitch span, PDQ 값이 2음절에서 다소 중화되는 양상을 보였기 때문이다. 이러한 양상은 L2 억양 습득과정에서 목표어 억양에 근접해 가는 또 다른 중간 언어적 특성으로 간주할 수 있을 것이다. 따라서 목표어에 근접하는, 보다 자연스러운 피치를 생성하기 위해서는 특정 성조의 반복적 사용과 제한적인 음역대 사용을 지양하는 학습이 필요한 것으로 보인다. This study investigates the influence of Chinese on the pitch of Sino-Korean words produced by Chinese learners of Korean. Korean and Chinese are typologically classified into different prosodic categories. Chinese is a tonal language, while Korean is a non-tonal language in which tones do not serve phonological functions. In this context, Sino-Korean words provide a mechanism for observing the interference of the native language and aspects of L2 intonation, such as pitch reduction. To investigate these aspects, we conducted both phonological and phonetic analyses. In the phonological analysis, we examined the pitch pattern of each syllable and observed similarities with native tones. In the phonetic analysis, pitch span, pitch level, and pitch dynamism quotient (PDQ) were used as prosodic measures. Six native Korean speakers and 20 intermediate and advanced Chinese learners participated in a prosodic production test. The material analyzed consisted of 10 Sino-Korean words embedded in six sentences. The results showed that Sino-Korean words produced by Chinese speakers exhibited certain similarities with native tones, a low pitch level, a more expanded pitch span, and greater syllable-internal pitch variation. These results suggest that the learners' L2 intonation is influenced by two major factors: native language interference and low pitch level phenomena. At the phonetic level, these two factors coexist.

      • KCI등재

        제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델

        김준우(June-Woo Kim),정호영(Ho-Young Jung) 한국음성학회 2020 말소리와 음성과학 Vol.12 No.4

        음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다. Speech recognition is one of the areas actively commercialized using deep learning and machine learning techniques. However, the majority of speech recognition systems on the market are developed on data with limited diversity of speakers and tend to perform well on typical adult speakers only. This is because most of the speech recognition models are generally learned using a speech database obtained from adult males and females. This tends to cause problems in recognizing the speech of the elderly, children and people with dialects well. To solve these problems, it may be necessary to retain big database or to collect a data for applying a speaker adaptation. However, this paper proposes that a new end-to-end speech recognition method consists of an acoustic augmented recurrent encoder and a transformer decoder with linguistic prediction. The proposed method can bring about the reliable performance of acoustic and language models in limited data conditions. The proposed method was evaluated to recognize Korean elderly and children speech with limited amount of training data and showed the better performance compared of a conventional method.

      • KCI등재

        여성 노인 합창단원의 합창단 유형에 따른 청지각적 음성평가(GRBAS) 및 음성관련 삶의 질(K-VRQOL) 비교

        이현정(Hyeonjung Lee),강빈나(Binna Kang),김수지(Soo Ji Kim) 한국음성학회 2020 말소리와 음성과학 Vol.12 No.2

        본 연구의 목적은 음성의 청지각적 평가도구(GRBAS)와 음성관련 삶의 질(K-VRQOL) 척도를 통해 합창활동에 참여하는 여성 노인의 음성 특성과 음성관련 삶의 질을 비교하는 것이다. 연구 대상은 서울 및 부산 소재의 합창단에서 활동 중인 만 60세 이상의 여성 노인으로 총 77명이었다. 합창단은 참여 유형에 따라 합창단(Regular choir)과 찬양단(Church choir) 두 개의 집단으로 분류하였다. 청지각적 음성평가는 /a/ 모음을 발성하는 음성을 듣고 전문가가 청지각적 평가(GRBAS) 척도를 사용하여 평정하였다. 연구 결과, 합창활동 참여 유형에 따라 집단 간 차이를 비교했을 때 찬양단에서 활동하는 여성 노인에 비해 합창단에서 활동하는 여성 노인의 경우 주관적 음성 인식 수준에서 대화 시 음성 사용 만족도가 높은 것으로 나타났다. 또한, 음성관련 삶의 질(K-VRQOL) 척도의 신체 기능 영역에 해당하는 문항에서 만족도가 높은 것으로 분석되었다. 본 연구는 합창활동이 노년기 음성기능의 개선뿐 아니라 음성사용의 주관적 인식 수준을 향상시키는데 긍정적인 결과를 기대할 수 있을 것이라는 점을 확인하였으며, 노인 음성개선을 위한 체계적인 음악 중재 프로그램의 필요성을 시사하고 있다. The purpose of this study is to compare voice characteristics and voice-related quality of life (K-VRQOL) of the elderly female choir members using perceptual-auditory voice quality evaluation (GRBAS) and K-VRQOL scales. The participants were 77 women over 60 years old who were actively engaged in the choir in either Seoul or Busan. There are two kinds of choirs that indicate different engagement levels: regular choir and church choir. The perceptual-auditory vocal quality evaluation was listened to by / a / vowels and were graded by experts using the GRBAS scale. As a result, when comparing the differences between groups, the elderly female participants of the regular choir showed higher satisfaction in speech using the subjective speech recognition level than the elderly female members who performed in the church choir. In addition, the analysis showed that the satisfaction level was high in the physical function area of the K-VRQOL scale. This study confirmed that choral activities could yield positive results not only in terms of improving voice function in old age, but also to improve the subjective perception level of voice use, thus suggesting the necessity of systematic music programs to improve voices that are aging.

      • KCI등재

        어말 위치 /ᅩ/의 /ᅮ/ 대체 현상에 대한 문법 항목별 출현빈도 연구

        윤은경(Eunkyung Yoon) 한국음성학회 2020 말소리와 음성과학 Vol.12 No.1

        본 논문은 구어 말뭉치를 기반으로 한국어 /ᅩ/가 /ᅮ/로 고모음화되는 현상(예, ‘별로’ [별루])에 대해 문법 항목별로 차이를 살펴보는 데 연구 목적이 있다. 한국어의 /ᅩ/와 /ᅮ/는 [+원순성] 자질을 공유하지만, 혀 높이 차이로 변별된다. 그러나 최근 /ᅩ/와 /ᅮ/의 두 모음의 음성적 구분이 모호해지는 병합 현상이 진행 중이라고 여러 논문에서 보고되었다. 본 연구에서는 어말 위치의 /ᅩ/가 한국어 자연언어 구어 말뭉치(The Korean Corpus of Spontaneous Speech)에서 음성적으로 [o] 또는 [u]로 실현되는 현상을 연결어미, 조사, 부사, 체언의 문법 항목별로 출현빈도 및 출현비율에 대해 살펴보았다. 실험 결과 연결어미, 조사, 부사에서 /ᅩ/는 약 50%의 비율로 /ᅮ/로 대체되는 것을 확인했고, 체언에서만 상당히 낮은 비율인 5% 미만으로 대체가 되는 것을 알 수 있었다. 고빈도 형태소 중에서 가장 높은 /ᅮ/ 대체율을 보인 형태소는 "-도 [두]" (59.6%)였고, 연결어미에서는 "-고 [구]" (43.5%)로 나타났다. 구어 말뭉치를 통하여 실제 발음형과 표준발음의 차이를 살펴보았다는 데 연구 의의가 있다. This study identified the substitution of /u/ for /o/ (e.g., pyəllo [pyəllu]) in Korean based on the speech corpus as a function of grammar items. Korean /o/ and /u/ share the vowel feature [+rounded], but are distinguished in terms of tongue height. However, researchers have reported that the merger of Korean /o/ and /u/ is in progress, making them indistinguishable. Thus, in this study, the frequency of the phonetic manifestation /u/ of the underlying form of /o/ for each grammar item was calculated in The Korean Corpus of Spontaneous Speech (Seoul Corpus 2015) which is a large corpus from a total of 40 speakers from Seoul or Gyeonggi-do. It was then confirmed that linking endings, particles, and adverbs ending with /o/ in the word-final position were substituted for /u/ approximately 50% of the stimuli, whereas, in nominal items, they were replaced at a frequency of less than 5%. The high rates of substitution were the special particle “-do[du]” (59.6%) and the linking ending “-go[gu]” (43.5%) among high-frequency items. Observing Korean pronunciation in real life provides deep insight into its theoretical implications in terms of speech recognition.

      • KCI등재

        라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응

        정현재(Hyeonjae Jeong),구자현(Jahyun Goo),김회린(Hoirin Kim) 한국음성학회 2020 말소리와 음성과학 Vol.12 No.2

        최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model(GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다. Recently, the neural network-based deep learning algorithm has dramatically improved performance compared to the classical Gaussian mixture model based hidden Markov model (GMM-HMM) automatic speech recognition (ASR) system. In addition, researches on end-to-end (E2E) speech recognition systems integrating language modeling and decoding processes have been actively conducted to better utilize the advantages of deep learning techniques. In general, E2E ASR systems consist of multiple layers of encoder-decoder structure with attention. Therefore, E2E ASR systems require data with a large amount of speech-text paired data in order to achieve good performance. Obtaining speech-text paired data requires a lot of human labor and time, and is a high barrier to building E2E ASR system. Therefore, there are previous studies that improve the performance of E2E ASR system using relatively small amount of speech-text paired data, but most studies have been conducted by using only speech-only data or text-only data. In this study, we proposed a semi-supervised training method that enables E2E ASR system to perform well in corpus in different domains by using both speech or text only data. The proposed method works effectively by adapting to different domains, showing good performance in the target domain and not degrading much in the source domain.

      • KCI등재

        응급의료 영역 한국어 음성대화 데이터베이스 구축

        김선희(Sunhee Kim),이주영(Jooyoung Lee),최서경(Seo Gyeong Choi),지승훈(Seunghun Ji),강지민(Jeemin Kang),김종인(Jongin Kim),김도희(Dohee Kim),김보령(Boryoung Kim),조은기(Eungi Jo),김호정(Hojeong Kim),장정민(Jungmin Jang),김준형(Jun Hyung 한국음성학회 2020 말소리와 음성과학 Vol.12 No.4

        본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제안한다. 그리고 제안된 방법으로 수집되고 전사된 데이터를 이용하여 기본 음성인식 실험을 진행함으로써 제안한 수집 및 전사 방법을 평가하고 향후 연구 방향을 제시하고자 한다. 모든 음성은 기본적으로 16비트 해상도와 16 kHz 샘플링으로 저장되었다. 수집된 데이터는 총 166건의 대화로서 8시간 35분의 분량이다. 수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다. 이와 같이 수집된 데이터를 이용하여 기본 베이스라인 실험을 통하여 응급의료 영역에서의 음성인식 문제를 실제로 확인할 수 있었다. 본 논문에서 제시한 데이터는 응급의료 영역의 1단계 데이터로서 향후 의료 영역에서의 음성인식 모델의 학습 데이터로 활용되고, 나아가 이 분야의 음성기반 시스템 개발에 기여할 수 있을 것으로 기대된다. This paper describes a method of building Korean conversational speech data in the emergency medical domain and proposes an annotation method for the collected data in order to improve speech recognition performance. To suggest future research directions, baseline speech recognition experiments were conducted by using partial data that were collected and annotated. All voices were recorded at 16-bit resolution at 16 kHz sampling rate. A total of 166 conversations were collected, amounting to 8 hours and 35 minutes. Various information was manually transcribed such as orthography, pronunciation, dialect, noise, and medical information using Praat. Baseline speech recognition experiments were used to depict problems related to speech recognition in the emergency medical domain. The Korean conversational speech data presented in this paper are first-stage data in the emergency medical domain and are expected to be used as training data for developing conversational systems for emergency medical applications.

      • KCI등재

        Transformer 네트워크를 이용한 음성신호 변환

        김준우(June-Woo Kim),정호영(Ho-Young Jung) 한국음성학회 2020 말소리와 음성과학 Vol.12 No.3

        음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다. Voice conversion can be applied to various voice processing applications. It can also play an important role in data augmentation for speech recognition. The conventional method uses the architecture of voice conversion with speech synthesis, with Mel filter bank as the main parameter. Mel filter bank is well-suited for quick computation of neural networks but cannot be converted into a high-quality waveform without the aid of a vocoder. Further, it is not effective in terms of obtaining data for speech recognition. In this paper, we focus on performing voice-to-voice conversion using only the raw spectrum. We propose a deep learning model based on the transformer network, which quickly learns the voice conversion properties using an attention mechanism between source and target spectral components. The experiments were performed on TIDIGITS data, a series of numbers spoken by an English speaker. The conversion voices were evaluated for naturalness and similarity using mean opinion score (MOS) obtained from 30 participants. Our final results yielded 3.52±0.22 for naturalness and 3.89±0.19 for similarity.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼