http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Guided Grad-CAM 을 이용한 영상 내 송전설비 검출기법
박은수(Eun-Soo Park),김승환(SeungHwan Kim),굴람 무즈타바(Ghulam Mujtaba),류은석(Eun-Seok Ryu) 한국방송·미디어공학회 2020 한국방송공학회 학술발표대회 논문집 Vol.2020 No.7
본 논문에서 육안으로도 구별하기 힘든 송전선과 같은 객체가 포함된 송전설비를 효과적으로 검출하는 방법을 제안한다. 객체 인식 모델에 송전탑 데이터 셋을 학습시켜 송전설비 Region of Interest(ROI)를 추출한다. 송전선 데이터 셋을 ResNet50 에 학습하고, 추출된 ROI 영상을 Guided Grad-CAM 을 출력한다. 추출된 Guided Grad-CAM 에 노이즈 제거 후처리를 적용하여 송전설비를 추출한다. 본 논문에서 제안된 기법을 적용할 경우 드론 또는 UAV 헬기 등에서 촬영된 영상으로 송전설비 유지보수가 가능하다.
김승환(Kim, SeungHwan),박은수(Park, Eun-Soo),굴람 무즈타바(Ghulam Mujtaba),류은석(Ryu, Eun-Seok) 한국방송·미디어공학회 2020 한국방송공학회 학술발표대회 논문집 Vol.2020 No.7
최근 이미지 인식을 위한 Convolutional Neural Network(CNN) 모델의 경량화에 관한 연구가 활발하게 이루어지고 있다. 그중 양자화는 모델을 구성하는 가중치의 크기를 낮추는 방법이다. 기존의 CNN 모델에서 가장 큰 비중을 하는 Fully Connected Layer(FCL)는 내부적으로 32 Bit의 실수 행렬로 표현된다. 본 논문에서는 미리 학습된 실수 가중치를 더 작은 비트의 정수 행렬로 양자화한다. 양자화된 행렬에 대해서 영상 압축 등에서 사용하는 Discrete Cosine Transform(DCT)을 통해 주파수 영역으로 변환한 후 고주파 영역을 생략하는 손실압축 방법을 제안한다. 실험을 통해 그 과정에서 손실에 따른 정확도의 변화를 나타낸다.
김승환(Kim, SeungHwan),박은수(Park, Eun-Soo),굴람 무즈타바(Ghulam Mujtaba),류은석(Ryu, Eun-Seok) 한국방송·미디어공학회 2020 한국방송공학회 학술발표대회 논문집 Vol.2020 No.11
최근 모바일 기기에서 딥러닝 모델을 사용하기 위한 경량화 연구가 진행되고 있다. 그중 모델의 가중치 표현 bit를 줄이는 양자화와 사용하기 위한 다양한 압축 알고리즘이 개발되었다. 하지만 대부분의 양자화 및 압축 알고리즘들은 한 번 이상의 Fine-tuning을 거쳐야 하는데 이 과정은 모바일 환경에서 수행하기에는 연산복잡도가 너무 높다. 따라서 본 논문은 양자화된 가중치를 High Efficiency Video Coding(HEVC)을 통해 압축하는 방법을 제안하고 정확도와 압축률을 실험한다. 실험결과는 양자화만 실시한 경우 대비 크기는 25%의 감소했지만, 정확도는 0.7% 감소했다. 따라서 이런 결과는 모바일 기기에 가중치를 전송하는 과정에 적용될 수 있다.
시니어 라이프 로깅을 위한 심미적 특징 기반의 행동 요약 시스템
김선대(Seondae Kim),류일웅(Il-Woong Ryu),유재성(Jaesung Ryu),굴람 무즈타바(Ghulam Mujtaba),박은수(Eunsoo Park),김승환(Seunghwan Kim),류은석(Eun-Seok Ryu) 한국방송·미디어공학회 2019 한국방송공학회 학술발표대회 논문집 Vol.2019 No.6
본 논문은 시니어 라이프 로깅을 위한 데이터베이스를 효과적으로 구축하기 위해 영상의 심미적 특징을 통한 행동 별 영상 요약을 소개한다. 실내의 TV 앞에서 오랜 시간을 보내는 시니어의 상태를 체크하기 위해 일반 카메라 또는 360 카메라를 통해 HD 급 화질 이상의 영상을 주기적으로 수집하고, 이를 머신러닝 또는 딥러닝 기반의 행동인식 시스템에 이용하기 위한 전처리 단계에 응용할 수 있는 방법을 서술한다. 이 연구에서는 영상 데이터에서 얻을 수 있는 색상을 이용한 HSV 히스토그램, 영상신호의 Jitter 를 줄이는 고정도, 움직임 에너지 등을 이용하여 짧은 시간 내에 행동별로 구분된 영상(샷, shot)을 자르고 요약하는 방법을 서술한다.
박은수(Eun-Soo Park),김승환(Seunghwan Kim),유재성(Jaesung Ryu),김선대(Seondae Kim),굴람 무즈타바(Ghulam Mujtaba),류은석(Eun-Seok Ryu) 한국방송·미디어공학회 2019 한국방송공학회 학술발표대회 논문집 Vol.2019 No.6
본 논문에서 기존의 이미지 캡셔닝의 문제점인 행동 인식 관련한 문제를 해결한다. 이미지 캡셔닝 모델의 학습 데이터의 행동 부분 즉, 동사 부분으로 행동 인식 데이터 셋을 만들었을 경우 많은 클래스, 각 클래스에는 적은 데이터로 구성됨을 보였다. 따라서, 본 논문에서 행동 인식 모델을 추가하고, 임계값을 두어 이미지 캡셔닝의 동사 부분의 정확도가 낮을 경우, 그리고 행동 인식 모델의 정확도가 높을 경우 두 결과물을 교체하는 방식으로 이미지 캡셔닝의 문제점을 해결한다. 본 논문에서 제안하는 모델에 대한 설명과 구현 과정 및 행동 인식에 강인한 이미지 캡셔닝 실험 결과를 보인다.