http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
CCTV 지능화를 위한 엣지컴퓨팅 기반 객체검출, 식별 및 PTZ 제어의 구현
전광명(Kwang Myung Jeon),김경봉(Gyeong Bong Kim),안형준(Hyungjun Ahn),최우열(Wooyeol Choi) 대한전자공학회 2020 대한전자공학회 학술대회 Vol.2020 No.8
CCTV 지능화를 위해 연구되어 온 영상분석 및 카메라 제어 방법은 각 기능별 구현에 대해서는 널리 알려져 있지만 HW 제약사항을 고려한 유기적 구동을 위한 최적 구현 방법 및 그 성능은 잘 알려져 있지 않았다. 이에 본 논문은 CCTV의 지능화를 위한 엣지 컴퓨팅 기반 객체검출, 식별 및 PTZ 제어기능의 구현방법을 다룬다. 먼저 제안된 구현방법은 ResNet back-bone 기반의 객체검출 모델 및 객체식별 모델을 학습한 후 이에 대한 가지치기 및 양자화를 통한 모델 경량화를 진행한다. 다음으로 PTZ 제어와 관련된 ONVIF 프로토콜 전송 라이브러리를 구현한다. 마지막으로 각 기능별 API 인터페이스를 응용 SW 계층에서 통합하여 추론 (객체검출 및 식별)과 동작 (PTZ 제어)를 목적에 맞게 연동시킨다. 제안된 시스템은 스쿨존 안전관리를 위한 지능형 PTZ 시스템으로 구현되었으며, 실험결과 85mAP의 객체검출 정확성과 21FPS의 처리 속도를 보이며 그 유효성을 입증하였다.
이중 마이크로폰을 이용한 비음수 행렬분해 기반 다중음원 도래각 예측
전광명(Kwang Myung Jeon),김홍국(Hong Kook Kim),유승우(Seung Woo Yu) 대한전자공학회 2017 전자공학회논문지 Vol.54 No.2
본 논문에서는 이중 마이크로폰 배열을 이용하여 비음수 행렬분해(nonnegative matrix factorization, NMF) 기반으로 다중 음원의 도래각을 추정하는 새로운 방법을 제안한다. 우선 이중 마이크로폰 배열에 들어온 음향 신호들을 연속된 분석프레임으로 분할한 후, 각 프레임에 대해 조향응답파워 위상변환(steered-response power phase transform, SRP-PHAT) 빔형성기를 적용하여 스테레오 신호들을 시간-방향 영역으로 표현한다. 이러한 SRP-PHAT의 시간-방향 출력값들은 사전에 정의된 프레임 수만큼 누적하여 시간-방향 블록으로 정의한다. 다음으로, 잡음에 강건한 도래각 추정을 위하여, 각 시간-방향 블록을 블록차감 기법을 사용하여 매 프레임에 대해 정규화한다. 이후, 다중음원 환경에서 각 음원의 방향을 클러스터링하기 위해 정규화된 시간-방향 블록에 비지도(unsupervised) NMF를 적용한다. 구체적으로, 음원의 개수와 이들의 도래각을 추정하는데 각각 활성 및 기저 행렬들을 사용한다. 제안된 방법의 도래각 추정 성능을 평가하기 위해 이중 마이크로폰 배열로부터 입력된 [-35∘, 5m], [12∘, 4m], 그리고 [38∘, 4.m]에 각각 위치한 세 가지 음원들에 대한 추정 오차의 절대 평균(mean absolute error, MAE) 및 오차의 표준편차를 측정하였다. 실험 결과. 제안된 방법은 기존의 SRP-PHAT 기반 도래각 추정방법에 비해 상대적으로 MAE를 56.83% 줄일 수 있었다. This paper proposes a new nonnegative matrix factorization (NMF) based direction-of-arrival (DOA) estimation method for multiple sound sources using a dual microphone array. First of all, sound signals coming from the dual microphone array are segmented into consecutive analysis frames, and a steered-response power phase transform (SRP-PHAT) beamformer is applied to each frame so that stereo signals of each frame are represented in a time-direction domain. The time-direction outputs of SRP-PHAT are stored for a pre-defined number of frames, which is referred to as a time-direction block. Next, In order to estimate DOAs robust to noise, each time-direction block is normalized along the time by using a block subtraction technique. After that, an unsupervised NMF method is applied to the normalized time-direction block in order to cluster the directions of each sound source in a multiple sound source environments. In particular, the activation and basis matrices are used to estimate the number of sound sources and their DOAs, respectively. The DOA estimation performance of the proposed method is evaluated by measuring a mean absolute error (MAE) and the standard deviation of errors between the oracle and estimated DOAs under a three source condition, where the sources are located in [-35∘, 5m], [12∘, 4m], and [38∘, 4.m] from the dual microphone array. It is shown from the experiment that the proposed method could relatively reduce MAE by 56.83%, compared to a conventional SRP-PHAT based DOA estimation method.
평균음성을 이용한 교차성별 음성변환 기반 소용량 음성합성
전광명(Kwang Myung Jeon),박남인(Nam In Park),김홍국(Hong Kook Kim) 한국HCI학회 2012 한국HCI학회 학술대회 Vol.2012 No.1
본 논문에서는 평균음성을 이용한 교차성별 음성변환 기술에 바탕을 둔 소용량의 음성합성 방식을 제안한다. 제안된 음성합성 방식은 평균음성 모델로부터 중성화된 음성합성 특징을 추출하고, 추출된 특징에 주파수 와핑과 피치 변환을 가해 원하는 성별의 합성음성을 생성한다. 제안하는 방법은 원하는 성별의 음성을 얻기 위해 남녀 각각의 음성모델을 지녀야 하는 기존의 화자 의존형 음성합성과는 달리 평균음성 모델 하나만으로도 남녀 각각에 대한 음성을 얻을 수 있다. 성능 평가 결과 제안된 소용량 음성합성 방법은 기존의 화자 의존 방식 대비 52% 낮은 요구 저장공간으로도 유사한 수준의 음성 품질 만족도를 보여주었다. In this paper, we propose a small-footprint speech synthesis method based on cross-gender voice conversion by using average-voices. The proposed speech synthesis method extracts gender-averaged speech features from average-voice models, and then it generates desired gender specific synthesized speech by performing frequency warping and pitch conversion on the extracted features. The proposed method is able to obtain both male and female speeches by using only one average-voice model, while the conventional method requires two separate speech models corresponding to male and female. It is shown from evaluation results that the proposed speech synthesis method provides comparable speech quality with less storage size of 52%, compared to the conventional method.
비음수 텐서 분해 및 은닉 마코프 모델을 이용한 다음향 환경에서의 이중 채널 음향 사건 검출
전광명(Kwang Myung Jeon),김홍국(Hong Kook Kim) 대한전자공학회 2017 전자공학회논문지 Vol.54 No.1
본 논문에서는 다음향(multisource) 환경에서의 음향 사건 검출 정확도를 높이기 위해 비음수 텐서 분해(nonnegative tensor factorization, NTF)와 은닉 마코프 모델(hidden Markov model, HMM)을 이용한 이중 채널 음향 사건 검출 방법을 제안한다. 제안된 방법은 먼저 이중 채널 입력 신호들에 NTF 기법을 적용하여 얻은 각 음향 사건 별 채널 이득을 활용하여 다수의 음향 사건들을 검출한다. 그러고 나서, 채널 이득에 의해 검출된 음향 사건의 발생 여부를 검증하기 위하여 채널 이득을 우도 가중치로 활용하는 HMM 기반의 우도비 검증을 수행한다. 제안된 방법의 검출 정확도를 평가하기 위하여 다양한 잡음과 사건간 중첩 밀도를 고려하는 다중 사건 발생 환경에 대한 F-measure를 측정하였고, 기존의 혼합 가우시안 모델 및 비음수 행렬분해 기반의 음향 사건 검출 방법들과 비교하였다. 실험 결과, 제안된 방법이 기존 방법들에 비하여 모든 실험 조건에서 높은 정확도를 보였다. In this paper, we propose a dual-channel acoustic event detection (AED) method using nonnegative tensor factorization (NTF) and hidden Markov model (HMM) in order to improve detection accuracy of AED in multisource environments. The proposed method first detects multiple acoustic events by utilizing channel gains obtained from the NTF technique applied to dual-channel input signals. After that, an HMM-based likelihood ratio test is carried out to verify the detected events by using channel gains. The detection accuracy of the proposed method is measured by F-measures under 9 different multisource conditions. Then, it is also compared with those of conventional AED methods such as Gaussian mixture model and nonnegative matrix factorization. It is shown from the experiments that the proposed method outperforms the convectional methods under all the multisource conditions.
비음수 텐서 분해와 은닉 마코프 모델을 이용한 터널 환경에서의 음향 사고 검지 방법
김남균(Nam Kyun Kim),전광명(Kwang Myung Jeon),김홍국(Hong Kook Kim) 인문사회과학기술융합학회 2018 예술인문사회융합멀티미디어논문지 Vol.8 No.9
본 논문에서는 터널 환경에서 비음수 텐서분해와 가우시안 혼합을 갖는 은닉 마코프 모델을 사용한 사고 검지 시스템을 제안한다. 대부분의 터널 내 환경은 내재된 환경으로 인한 작은 사고들이 발생한다. 특히 터널 내에서 사고가 발생할 시, 2차, 3차 사고가 발생되어 큰 재해로 발전할 가능성이 높다. 주로 시각기반의 사고 검지 기법들이 많이 제안되어왔으나, 시야각 등의 문제로 오검지가 발생하는 단점이 존재한다. 이러한 시각기반의 검지 기법을 보완하기 위해 본 논문에 제안된 기법은 터널환경에서의 음향사고 검출의 정확도 개선을 위해 비음수 텐서분해와 가우시안 혼합모델(Gaussian mixture model, GMM) 기반의 은닉 마코프 모델(hidden Markov model, HMM)을 이용한다. 제안된 방법은 비음수 텐서 분해 기법에 활용되는 사고음향 모델과 잡음모델을 사용하여 사고음을 분리하고, 분리된 사고음을 기반으로 기 훈련된 GMM-HMM 기반의 음향모델을 기반으로 우도비 검증을 수행하여 사고 검지를 수행한다. 제안된 방법의 검지 정확도를 평가하기 위해 터널 내 환경잡음과 사고음을 합성하여 생성한 데이터를 생성하였고, 높은 정확도를 얻을 수 있었다. In this paper, we propose an acoustic event detection method in tunnels using non-negative tensor factorization (NTF) and hidden Markov model (HMM) applied to multi-channel audio signals. Incidents in tunnel are inherent to the system and occur unavoidably with known probability. Incidents can easily happen minor accidents and extend right through to major disaster. Most incident detection systems deploy visual incident detection (VID) systems that often cause false alarms due to various constraints such as night obstacles and a limit of viewing angle. To this end, the proposed method first tries to separate and detect every acoustic event, which is assumed to be an in-tunnel incident, from noisy acoustic signals by using an NTF technique. Then, maximum likelihood estimation using Gaussian mixture model (GMM)-HMMs is carried out to verify whether or not each detected event is an actual incident. Performance evaluation shows that the proposed method operates in real time and achieves high detection accuracy under simulated tunnel conditions.