http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
STT 정확도 향상을 위한 딥러닝 기반 MS 구간 추출 및 음성 분리
황용해(Yong Hae Hwang),차은영(Eun Young Cha),홍순기(Soongi Hong),김상진(Sangjin Kim),이학주(Hakjoo Lee),서덕영(Doug Young Suh),김규헌(Kyuheon kim) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
최근 인공지능 기술이 적용된 다양한 기술의 상용화가 이루어지고 있으며, 딥러닝 기술의 발전과 함께 최상의 조건에서 녹음된 오디오의 음성 인식은 최대 95%에 가까운 정확도를 보여준다. 그러나 음악이나 주변 소음과 같은 비음성 요소가 음성 신호와 함께 녹음되면 음성 인식 정확도가 매우 낮아지거나 인식을 못 하는 문제가 발생한다. 이에 본 논문에서는 음성과 음악을 분리하는 딥러닝 기술을 사용하여 Music and Speech (MS) 구간을 추출하고, STT 결과 분석을 통해 비음성 요소가 함께 녹음된 음성의 특징을 분석하고 정확도를 향상하기 위한 연구 방향을 제시한다.
실시간 무참조 게이밍 영상 품질 측정을 위한 saliency map 기반의 영상 특징 추출 고속화 방법
차은영(Eun Young Cha),황용해(Yong Hae Hwang),서덕영(Doug Young Suh) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
본 논문에서는 샐리언시 맵(saliency map)을 활용하여 게이밍(gaming) 영상 품질 측정을 위한 영상의 특징 추출 고속화 방법을 제안한다. 제안하는 방법은 샐리언시 맵을 이용하여 입력 영상 속 사용자의 응시점을 획득한 후 응시점을 기준으로 가우시안 가중치 필터를 적용한다. 영상의 모든 픽셀을 사용하는 것이 아닌 일부 픽셀만 사용하여 영상의 특징 추출 과정을 고속화할 수 있다. 가우시안 가중치 필터는 게임 장르에 따른 요구 사항에 유동적으로 적용되어 게임 영상의 무참조 영상 품질 측정의 영상 특징 추출 시간을 큰 폭으로 줄여 실시간으로 영상의 품질을 측정할 수 있다.