http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
최대림,김봉완,김종교,이용주,Choi, Dae-Lim,Kim, Bong-Wan,Kim, Chong-Kyo,Lee, Yong-Ju 대한음성학회 2007 말소리 Vol.62 No.-
In this paper, we introduce a phone vector discrete HMM(PVDHMM) that decodes a phone sequence string, and demonstrates the applicability to spoken document retrieval. The PVDHMM treats a phone recognizer or large vocabulary continuous speech recognizer (LVCSR) as a vector quantizer whose codebook size is equal to the size of its phone set. We apply the PVDHMM to decode the phone sequence strings and compare the outputs with those of a continuous speech recognizer(CSR). Also we carry out spoken document retrieval experiment through PVDHMM word spotter on the phone sequence strings which are generated by phone recognizer or LVCSR and compare its results with those of retrieval through the phone-based vector space model.
QoLT 소프트웨어 기술 개발을 위한 장애인용 음성 DB의 설계 및 구축
최대림(Dae-Lim Choi),김봉완(Bong-Wan Kim),정민화(Minhwa Chung),이용주(Yong-Ju Lee) 한국HCI학회 2012 한국HCI학회 학술대회 Vol.2012 No.1
In this paper we will introduce the work of creating a speech database to develop QoLT speech technology for disabled persons, which has been done as part of a national program to help better life for people. Speech recognition technology is indispensible to help the disabled communicate easily with others, and the distribution of a speech database which is created with the disabled in real environments is essential to develop this technology. Speech databases for development of QoLT software technology are composed of dysarthric speech database which is needed to develop an embedded key-word spotting speech recognition system tailored for the persons disabled in articulation and speech database for voice-controlled PC and word processors. At present a dysarthric speech database of a total of 160 speakers has been completed, and we are continuing to record new speakers with cerebral paralysis of mild and moderate severity. Speech database for voice-controlled PC and word processors of a total of 300 speakers will be collected this year. The created database is being used by the technology development team for QoLT speech recognition system. 본 논문에서는 지경부의 국민편익증진사업(QoLT)중 산업기술 기반 구축 사업의 일환으로 수행되고 있는 QoLT 소프트웨어 기술 개발을 위한 장애인용 음성 DB 구축 과제를 소개한다. 음성인식 기술을 활용한 QoLT 소프트웨어 기술은 장애인의 원활한 의사소통을 지원할 수 있는 필수적 기술이며, 발성 장애인을 위한 개인 맞춤형 내장형 명령어 인식기 개발과 지체장애인을 위한 음성워드프로세서 및 음성컴퓨터 소프트웨어 개발 분야에서 필요한 음성DB의 구축 및 보급이 반드시 선행되어야 한다. 현재 160명분의 경도 및 중도 마비 말장애인 음성 인식용 DB가 구축되었으며 올해 240명 규모로 확대할 계획이다. 이와 더불어 음성워드프로세서용 낭독체 연속어 음성DB가 300명 규모로 당해에 수집될 예정이다. 구축된 DB는 국민편익증진사업을 위한 기술 개발팀에게 보급하여 장애 유형에 따른 장애 음성 특성 분석 및 발성 장애인 개인 맞춤형 음성인식 소프트웨어 프로토타입 설계 및 구현, 지체장애인을 위한 음성워드프로세서 및 음성 컴퓨터 소프트웨어 개발 등의 연구에 공동 활용 중이다.
SiTEC의 공동 이용을 위한 음성 코퍼스 구축 현황 및 계획
김봉완,최대림,김영일,이광현,이용주,Kim Bong-Wan,Choi Dae-Lim,Kim Young-Il,Lee Kwang-Hyun,Lee Yong-Ju 대한음성학회 2003 말소리 Vol.46 No.-
To support speech information technology industry it is vital to create and distribute standardized speech corpora to be used for the development of products and technologies. In this article we introduce speech corpora created by Speech Information Technology & Industry Promotion Center(SiTEC) during its 1st and 2nd fiscal years (2001/5/1-2003/4/30) and plans for those corpora which is being created currently or will be created in near future. We introduce the corpus for car application to expand speech information technology to the field of traditional industry, the corpora for foreign languages to support exportation, the corpus for basic research for the sake of application in the industry, the corpora for common use, and others.
자동차 주행 환경에서의 음성 전달 명료도와 음성 인식 성능 비교
이광현,최대림,김영일,김봉완,이용주,Lee Kwang-Hyun,Choi Dae-Lim,Kim Young-Il,Kim Bong-Wan,Lee Yong-Ju 대한음성학회 2004 말소리 Vol.50 No.-
The normal transmission characteristics of sound are hardly obtained due to the various noises and structural factors in a running car environment. It is due to the channel distortion of the original source sound recorded by microphones, and it seriously degrades the performance of the speech recognition in real driving environments. In this paper we analyze the degree of intelligibility under the various sound distortion environments by channels according to driving speed with respect to speech transmission index(STI) and compare the STI with rates of speech recognition. We examine the correlation between measures of intelligibility depending on sound pick-up patterns and performance in speech recognition. Thereby we consider the optimal location of a microphone in single channel environment. In experimentation we find that high correlation is obtained between STI and rates of speech recognition.
김봉완,최대림,이용주,Kim, Bong-Wan,Choi, Dae-Lim,Lee, Yong-Ju 대한음성학회 2007 말소리 Vol.63 No.-
As the Internet becomes prevalent in our lives, harmful contents, such as phornographic videos, have been increasing on the Internet, which has become a very serious problem. To prevent such an event, there are many filtering systems mainly based on the keyword-or image-based methods. The main purpose of this paper is to devise a system that classifies pornographic videos based on the audio information. We use the mel-cepstrum modulation energy (MCME) which is a modulation energy calculated on the time trajectory of the mel-frequency cepstral coefficients (MFCC) as well as the MFCC as the feature vector. For the classifier, we use the well-known Gaussian mixture model (GMM). The experimental results showed that the proposed system effectively classified 98.3% of pornographic data and 99.8% of non-pornographic data. We expect the proposed method can be applied to the more accurate classification system which uses both video and audio information.
안드로이드 OS기반 음향정보를 이용한 음란동영상 검출 서비스 구현
김용운(Young-Wun Kim),김봉완(Bong-Wan K),최대림(Dae-Lim Choi),김태권(Tae-Guon Kim),고락환(Lag-Hwan Ko),이용주(Yong-Ju Lee) 한국멀티미디어학회 2010 한국멀티미디어학회 학술발표논문집 Vol.2010 No.2
급속한 인터넷의 발달로 등장하게 된 스마트폰은 여러 가지 긍정적인 모습으로 생활의 편의를 가지고 왔다. 하지만, 최근 국내에서 스마트폰의 무분별한 음란물 노출은 사회의 이슈가 되고 있다. 따라서 무분별한 음란물 노출을 막기 위한 대책이 시급하다. 이에 본 논문에서는 안드로이드 OS 기반에서 음향 정보를 이용하여 음란동영상을 검출하는 서비스를 제안하고 구현하였다.
말, 언어가 늦은 아동을 위한 언어훈련 교육용 App 설계 및 개발
고락환(LagHwan Ko),김용운(YongWun Kim),김진호(JinHo Kim),최대림(Dae-Lim Choi),이영미(YoungMee Lee),이용주(YongJu Lee) 한국HCI학회 2017 한국HCI학회 학술대회 Vol.2017 No.2
본 논문에서는 말, 언어가 늦은 아동의 언어훈련을 위한 교육용 Application(이하 App)에 대해 소개한다. 기존의 터치인터페이스로는 구현할 수 없는 다양한 훈련방법들을 구현하기 위해 음성인터페이스를 적용하였으며, 훈련방법의 유용성을 높이기 위해 언어치료사들의 의견을 받아 훈련방법을 설계하고 구현하였다.
김태권(Tae-Guon Kim),김봉완(Bong-Wan Kim),최대림(Dae-Lim Choi),김용운(Young-Wun Kim),고락환(Lag-Hwan Ko),이용주(Yong-Ju Lee) 한국멀티미디어학회 2010 한국멀티미디어학회 학술발표논문집 Vol.2010 No.2
국내에서 출시된 안드로이드 OS 기반의 스마트폰은 한국어 TTS 엔진이 내장되어 있지 않아 어플리케이션 개발자 및 사용자들의 불편을 낳고 있다. 본 논문에서는 안드로이드 OS 기반의 한국어 TTS 서비스를 설계하고 구현하며, 서비스 적용을 위한 테스트 어플리케이션으로 문자 메시지 정보를 읽어주는 어플리케이션을 개발하였다. 구현된 한국어 TTS 시스템을 이용하여 안드로이드 OS 기반의 스마트폰 사용자를 위한 보다 다양한 종류의 정보제공 어플리케이션의 개발이 가능하리라고 판단된다.
안드로이드 OS 기반 한국어 TTS 서비스의 설계 및 구현
김태권(Tae-Guon Kim),김봉완(Bong-Wan Kim),최대림(Dae-Lim Choi),이용주(Yong-Ju Lee) 한국콘텐츠학회 2012 한국콘텐츠학회논문지 Vol.12 No.1
국내에서 출시된 안드로이드 기반의 스마트폰은 한국어 TTS 엔진이 내장되어 있지 않고, 구글에서도 공식적인 한국어 TTS 기술 개발을 발표하지 않고 있는 상황이다. 따라서 안드로이드 스마트폰을 사용하는 어플리케이션 개발자 및 사용자들의 불편이 갈수록 심해져 가고 있다. 본 논문은 안드로이드 기반의 스마트폰에서 서비스할 수 있는 TTS시스템의 설계 및 구현에 대해 기술하였다. 신속·명료한 TTS를 위해 안드로이드 NDK를 이용하여 텍스트 전처리와 합성음 생성 라이브러리를 구현하였다. 또한, 자바의 스레드 기법과 스트림을 적용한 AudioTrack 클래스 객체를 사용하여 TTS 응답시간을 최소화 하였다. 구현된 한국어 TTS 서비스를 테스트하기 위해 수신된 문자메시지를 읽어주는 어플리케이션을 설계 및 개발하였다. 평가 결과, 임의의 문장에 대해 자연스러운 합성음을 생성하였으며, 실시간 청취가 가능하였다. 또한, 어플리케이션 개발자들은 구현된 한국어 TTS 서비스를 이용하여 음성을 통한 정보 전달을 손쉽게 적용할 수 있다. 본 논문에서 구현한 한국어 TTS 서비스는 기존 제한적 음성합성 방식의 어플리케이션의 단점을 개선하였으며, 음성을 통한 정보전달 어플리케이션 개발자 및 사용자들에게 사용성과 편의성을 제공할 수 있다. Though Android-based smart phones are being released in Korea, Korean TTS engine is not built on them and Google has not announced service or software developer’s kit related to Korean TTS officially. Thus, application developers who want to include Korean TTS capability in their application have difficulties. In this paper, we design and implement Android OS-based Korean TTS system and service. For speed, text preprocessing and synthesis libraries are implemented using Android NDK. By using Javas thread mechanism and the AudioTrack class, the response time of TTS is minimized. For the test of implemented service, an application that reads incoming SMS is developed. The test shows that synthesized speech are generated in real-time for random sentences. By using the implemented Korean TTS service, Android application developers can transmit information easily through voice. Korean TTS service proposed and implemented in this paper overcomes shortcomings of the existing restrictive synthesis methods and provides the benefit for application developers and users.