http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
확률분포 통합 형태를 이용한 음성과 제스처의 멀티모달 융합
이지근(Chi-Geun Lee),한문성(Mun-Sung Han),김진태(Jin-Tae Kim) 한국정보과학회 2008 한국정보과학회 학술발표논문집 Vol.35 No.2
최근 멀티모달 융합 인식은 유비쿼터스 연구 분야에서 큰 이슈로 대두되고 있다. 특히, 음성과 제스처는 인간과 기계간의 상호작용에 있어서 가장 중요한 모달리티로 떠오르고 있다. 비록 음성인식 기술이 많은 발전을 해왔지만 잡음이 있는 환경에서 음성인식률이 저하된다는 심각한 문제를 가지고 있다. 이와 같은 경우, 음성과 동시에 발생하는 제스처는 음성의 의미를 이해하는데 좋은 대안으로 사용할 수 있다. 본 논문에서는 음성과 제스처의 멀티모달 융합 인식을 위하여 두 모달리티의 이산적 확률밀도 분포를 통합하여 하나의 새로운 확률밀도 분포를 생성하고, 이를 이용하여 음성과 제스처를 융합 인식하는 새로운 멀티모달 융합 방법을 제시한다. 실험은 실시간 환경에서 마이크로폰과 3축 가속도 센서를 이용하여 진행되었다. 본 논문에서 제시한 통합된 확률밀도 분포의 융합인식률이 기존의 단순한 확률밀도 덧셈에 의한 방법에 비하여 보다 더 효과적임을 보였다.
HMM(Hidden Markov Model) 기반 견고한 실시간 립리딩을 위한 효율적인 VLSI 구조 설계와 FPGA 구현을 이용한 검증
이지근(Chi-Geun Lee),소인미(In-Mi So),김영운(Young-Un Kim),김주리(Ju-Ri Kim),강선경(Sun-Kyoung Kang),정성태(Sung-Tae Jung) 한국멀티미디어학회 2006 한국멀티미디어학회 학술발표논문집 Vol.2006 No.1
립리딩은 잡음이 있는 환경에서 음성 인식 시스템의 성능 향상을 위한 한 방법으로 제안되었다. 기존의 논문들이 소프트웨어 립리딩 방법을 제안하는 것에 반하여, 본 논문에서는 실시간 립리딩을 위한 하드웨어 설계를 제안한다. 실시간 처리와 구현의 용이성을 위하여 본 논문에서는 립리딩 시스템을 이미지 획득 모듈, 특징 벡터 추출 모듈, 인식 모듈의 세 모듈로 분할하였다. 이미지 획득 모듈에서는 CMOS 이미지 센서를 사용하여 입력 영상을 획득하게 하였고, 특징 벡터 추출 모듈에서는 병렬 블록매칭 알고리즘을 이용하여 입력영상으로부터 특징벡터를 추출하도록 하였고, 이를 FPGA로 코팅하여 시뮬레이션 하였다. 인식 모듈에서는 추출된 특징 벡터에 매하여 HMM 기반 인식 알고리즘을 적용하여 발성한 단어를 인식하도록 하였고, 이를 DSP에 코팅하여 시뮬레이션 하였다. 시뮬레이션 결과 실시간 립리딩 시스템이 하브웨어로 구현 가능함을 알 수 있었다.
이지근(Chi-Geun Lee),소인미(In-Mi So),김영운(Young-Un Kim),김주리(Ju-Ri Kim),강선경(Sun-Kyoung Kang),정성태(Sung-Tae Jung) 한국멀티미디어학회 2006 한국멀티미디어학회 학술발표논문집 Vol.2006 No.1
최근 들어 음성인식의 보조 수단으로 사용되는 립리딩 시스템에 관한 연구가 활발히 진행되고 있다. 립리팅 시스템은 잡음이 있는 환경에서 저하되는 음성 인식뮬을 보상하기 위한 방법으로 사용된다. 그러나 현재까지의 대부분의 립리딩 시스템은 카메라를 통해 들어오는 2차원 영상을 이용하는 것이 대부분이었다. 본 논문에서는 스테레오 카메라를 이용한 3차왼 립리딩 시스템을 구현하였다. 두 대의 카메라에서 입력되는 입력 영상의 입술 마커 인식을 통하여 입술 움직임의 2차원 좌표 값을 추출하고, 카메라 캘리브레이션을 통하여 3차원 좌표 값으로 복원하였다. 추출 된 입술 움직임에 대한 3차원 정보 값을 HMM을 이용하여 학습하고 인식하였다.
HMM(Hidden Markov Model) 기반의 견고한 실시간 립리딩을 위한 효율적인 VLSI 구조 설계 및 FPGA 구현을 이용한 검증
이지근(Chi-Geun Lee),김명훈(Myung-Hun Kim),이상설(Sang-Seol Lee),정성태(Sung-Tae Jung) 한국컴퓨터정보학회 2006 韓國컴퓨터情報學會論文誌 Vol.11 No.2
립리딩은 잡음이 있는 환경에서 음성 인식 시스템의 성능 향상을 위한 한 방법으로 제안되었다. 기존의 논문들이 소프트웨어 립리딩 방법을 제안하는 것에 반하여, 본 논문에서는 실시간 립리딩을 위한 하드웨어 설계를 제안한다. 실시간 처리와 구현의 용이성을 위하여 본 논문에서는 립리딩 시스템을 이미지 획득 모듈, 특징 벡터 추출 모듈, 인식 모듈의 세 모듈로 분할하였다. 이미지 획득 모듈에서는 CMOS 이미지 센서를 사용하여 입력 영상을 획득하게 하였고, 특징 벡터 추출 모듈에서는 병렬 블록매칭 알고리즘을 이용하여 입력영상으로부터 특징벡터를 추출하도록 하였고, 이를 FPGA로 코딩하여 시뮬레이션 하였다. 인식 모듈에서는 추출된 특징 벡터에 대하여 HMM 기반 인식 알고리즘을 적용하여 발성한 단어를 인식하도록 하였고, 이를 DSP에 코딩하여 시뮬레이션 하였다. 시뮬레이션 결과 실시간 립리딩 시스템이 하드웨어로 구현 가능함을 알 수 있었다. Lipreading has been suggested as one of the methods to improve the performance of speech recognition in noisy environment. However, existing methods are developed and implemented only in software. This paper suggests a hardware design for real-time lipreading. For real-time processing and feasible implementation, we decompose the lipreading system into three parts; image acquisition module, feature vector extraction module, and recognition module. Image acquisition module capture input image by using CMOS image sensor. The feature vector extraction module extracts feature vector from the input image by using parallel block matching algorithm. The parallel block matching algorithm is coded and simulated for FPGA circuit. Recognition module uses HMM based recognition algorithm. The recognition algorithm is coded and simulated by using DSP chip. The simulation results show that a real-time lipreading system can be implemented in hardware.
이지근(Chi-Geun Lee),정영훈(Young-Hoon Jung),조용상(Yong-Sang Cho) 한국컴퓨터교육학회 2022 한국컴퓨터교육학회 학술발표대회논문집 Vol.26 No.1
최근 교육 현장에서의 수학 교육 격차 심화 현상이 점점 심해짐에 따라 인공지능 기술을 활용한 학습자의 지식 상태 분석에 대한 연구에 대한 필요성이 두드러지고 있다. 수학 교육에서 인공지능의 활용은 다른 교과보다 상대적으로 위계성이 강한 교과로 학습자의 수준에 따른 맞춤형 학습이 필요하다. 이에 따라 개인 맞춤형 교육을 위한 지식 상태 점검이 필수적이며, 지식 추적에 대한 연구가 활발하게 진행되고 있다. 국내에서도 인공지능을 활용한 지식 추적 연구가 활발하게 진행되어야 할 것으로 보인다. 본 논문에서는 AI HUB의 수학 학습자의 학습 이력을 바탕으로 지식 상태 예측을 수행하는 지식 추적 인공지능 모델을 학습하고, 2015 개정 교육과정의 수학 내용을 토대로 구성된 5대 영역을 중심으로 학습자의 지식 상태를 측정하는 실험을 진행하였다.
이지근(Chi-Geun Lee),김희숙(Hee-Sook Kim),정성태(Sung-Tae Jung) 한국정보과학회 2001 한국정보과학회 학술발표논문집 Vol.28 No.1B
최근 들어 이미지 모자익은 가상현실과 웹 브라우저 상에서의 가상환경 구축, 관광, 광고 등, 많은 응용분야에서 관심을 모으고 있다. 이미지 모자익을 위해 해결해야 할 주된 문제는 이미지들 간의 중복되는 영역에서 정확한 대응점을 찾는 것이다. 지금까지 이 대응점을 찾기 위한 노력은 시스템의 많은 계산량과 시간들 투자해야만 했다. 또한 대부분의 모자익이 여려 차례의 촬영에 의한 정지 화상들 간의 모자익에 그치고 있다. 따라서 본 논문에서는 비디오 카메라를 이용하여 프레임들 간의 중복되는 영역에서 일정한 비교 영역을 지정하고 그 비교 영역 안에서 대응점을 찾는 블럭 매칭 방법을 적용함으로써 전체적인 모자익 시간을 줄이는 방법을 구현하였다.
얼굴과 음성 정보를 이용한 바이모달 사용자 인식 시스템 설계 및 구현
김명훈(Myung-Hun Kim),이지근(Chi-Geun Lee),소인미(In-Mi So),정성태(Sung-Tae Jung) 한국컴퓨터정보학회 2005 韓國컴퓨터情報學會論文誌 Vol.10 No.5
최근 들어 바이모달 인식에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 음성 정보와 얼굴정보를 이용하여 바이모달 시스템을 구현하였다. 얼굴인식은 얼굴 검출과 얼굴 인식 두 부분으로 나누어서 실험을 하였다. 얼굴 검출 단계에서는 AdaBoost를 이용하여 얼굴 후보 영역을 검출 한 뒤 PCA를 통해 특징 벡터 계수를 줄였다. PCA를 통해 추출된 특징 벡터를 객체 분류 기법인 SVM을 이용하여 얼굴을 검출 및 인식하였다. 음성인식은 MFCC를 이용하여 음성 특징 추출을 하였으며, HMM을 이용하여 음성인식을 하였다. 인식결과, 단일 인식을 사용하는 것보다 얼굴과 음성을 같이 사용하였을 때 인식률의 향상을 가져왔고, 잡음 환경에서는 더욱 높은 성능을 나타냈었다. Recently, study of Bimodal recognition has become very active. In this paper, we propose a Bimodal user recognition system that uses face information and audio information. Face recognition consists of face detection step and face recognition step. Face detection uses AdaBoost to find face candidate area. After finding face candidates, PCA feature extraction is applied to decrease the dimension of feature vector. And then, SVM classifiers are used to detect and recognize face. Audio recognition uses MFCC for audio feature extraction and HMM is used for audio recognition. Experimental results show that the Bimodal recognition can improve the user recognition rate much more than audio only recognition, especially in the presence of noise.