http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Speaker Detection System for Video Conference
이병선,고성원,권혁봉,Lee, Byung-Sun,Ko, Sung-Won,Kwon, Heak-Bong The Korean Institute of IIIuminating and Electrica 2003 조명·전기설비학회논문지 Vol.17 No.5
본 논문에서는 여러 사람이 참여하는 영상 회의에서 입술 움직임 정보를 이용하여 화자를 검출하는 시스템을 구현하였다. 구현된 시스템은 얼굴색 정보와 형태 정보를 이용하여 각 사람의 얼굴 및 입술 영역을 검출한 후, 입술 영역에서 이전 프레임과의 변화량을 계산하여 화자를 검출한다. 검출된 화자를 클로즈업하기 위하여 두 대의 CCD카메라를 사용하였으며, RS-232C시리얼 포트를 이용하여 PTZ 카메라를 제어한다. 실험 결과 3인 이상의 입력 동영상에서 얼굴의 기울어짐에 무관하게 화자를 검출할 수 있었으며 최초 기준 영상에서 화자를 클로즈업하는데 약 4∼5초 정도의 시간이 소요되었다. 또한 320${\times}$240 크기의 얼굴 영역 화면과 전체적인 배경 화면을 동시에 제공하므로 영상회의 및 인터넷 방송 등과 같은 영상 전송 시스템에서 보다 효율적인 의사 전달이 가능하게 하였다. In this paper, we propose a system that detects the current speaker in multi-speaker video conference by using lip motion. First, the system detects the face and lip area of each of the speakers using face color and shape information. Then, to detect the current speaker, it calculates the change between the current frame and the previous frame. To accomplish this, we used two CCD cameras. One is a general CCD camera, the other is a PTZ camera controlled by RS-232C serial port. The result is a system capable of detecting the face of current speaker in a video feed with more than three people, regardless of orientation of the faces. With this system, it only takes 4 to 5 seconds to zoom in on the speaker from the initial image. Also, it is amore efficient image transmission system for such things as video conference and internet broadcasting because it offers a face area screen at a resolution of 320X240, while at the same time providing a whole background screen.