http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
조현동(Hyun Dong Cho),김영웅(YeongWoong Kim),차준영(Junyeong Cha),김동현(DongHyun Kim),임성창(Sung Chang Lim),김휘용(Hui Yong Kim) 한국방송·미디어공학회 2022 한국방송공학회 학술발표대회 논문집 Vol.2022 No.6
인터넷의 발전으로 수많은 이미지와 비디오를 손쉽게 이용할 수 있게 되었다. 이미지와 비디오 데이터의 양이 기하급수적으로 증가함에 따라, JPEG, HEVC, VVC 등 이미지와 비디오를 효율적으로 저장하기 위한 부호화 기술들이 등장했다. 최근에는 인공신경망을 활용한 학습 기반 모델이 발전함에 따라, 이를 활용한 이미지 및 비디오 압축 기술에 관한 연구가 빠르게 진행되고 있다. NNIC (Neural Network based Image Coding)는 이러한 학습 가능한 인공신경망 기반 이미지 부호화 기술을 의미한다. 본 논문에서는 NNIC 모델과 인공신경망 기반의 초해상화(Super Resolution) 모델을 합동훈련하여 기존 NNIC 모델보다 더 높은 성능을 보일 수 있는 방법을 제시한다. 먼저 NNIC 인코더(Encoder)에 이미지를 입력하기 전 다운 스케일링(Down Scaling)으로 쌍삼차보간법을 사용하여 이미지의 화소를 줄인 후 부호화(Encoding)한다. NNIC 디코더(Decoder)를 통해 부호화된 이미지를 복호화(Decoding)하고 업 스케일링으로 초해상화를 통해 복호화된 이미지를 원본 이미지로 복원한다. 이때 NNIC 모델과 초해상화 모델을 합동훈련한다. 결과적으로 낮은 비트량에서 더 높은 성능을 볼 수 있는 가능성을 보았다. 또한 합동훈련을 함으로써 전체 성능의 향상을 보아 학습 시간을 늘리고, 압축 잡음을 위한 초해상화 모델을 사용한다면 기존의 NNIC 보다 나은 성능을 보일 수 있는 가능성을 시사한다.
적응적 크기 조정을 이용한 블록 기반 신경망 이미지 부호화
박민정(Min Jeong Park),김영웅(Yeongwoong Kim),김동현(Donghyun Kim),임성창(Sung Chang Lim),김휘용(Hui Yong Kim) 한국방송·미디어공학회 2022 한국방송공학회 학술발표대회 논문집 Vol.2022 No.6
본 논문에서는 최근 연구되고 있는 신경망 이미지 부호화(NNIC: Neural Network based Image Coding)를 위한 적응적 크기 조정을 이용한 블록 기반 신경망 이미지 부호화 알고리즘을 제안한다. 제안 방법은 이미지를 여러 개의 2N2N 블록으로 분할한 후 분할된 각 블록에 대해 두 가지 크기 조정 모드 중 하나로 부호화를 수행한다. 첫번째 모드는 2N2N 블록을 구성하는 4 개의 NN 블록을 각각 NNIC 인코더의 입력으로 사용하는 모드 1(크기 미조정 모드)이며, 두번째 모드는 2N2N 블록을 하나의 NN 블록으로 다운 스케일링하여 NNIC 입력으로 사용하는 모드 2(크기 조정 모드)이다. 모드 결정은 비트율-왜곡 비용(Rate-distortion Cost)이 더 적도록 이루어진다. 블록 기반 부호화와 제안 알고리즘을 비교하면, BDBR 은 약 -1.75%, BDSNR 은 약 0.073dB 으로 제안 알고리즘에서 성능 향상이 나타났고, 픽처 부호화와 제안 알고리즘을을 비교하면 BDBR 은 약 0.57%, BDSNR 은 -0.029dB 로 픽처 부호화와 거의 유사한 성능을 보인다는 것을 확인할 수 있다.
다중 작업 지원을 위한 배치 병합 학습 기반의 특징맵 압축 방법
정혜원(Hyewon Jeong),김영웅(Yeongwoong Kim),김휘용(Hui Yong Kim) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
With the advancements in machine vision tasks, Efficient feature map compression techniques are essential for handling large amounts of feature maps. To address this, end-to-end trainable codecs have emerged, demonstrating remarkable performance. However, these codecs require separate models for different compression bit rates and tasks. To overcome this limitation, we propose a batch merging training method that enables a single codec to support multi-task. This approach leverages a unified codec while minimizing performance degradation. Experimental results demonstrate the ability of the proposed method to closely replicate the performance of individually trained codecs. By effectively blending feature maps of multiple tasks during training, our approach offers a promising solution for multi-task learning, providing both efficiency and effectiveness.
사인파 활성화 함수를 적용한 합성곱 신경망 기반 JPEG 압축 영상 디블로킹 연구
최지현(Ji-Hyoun Choi),박수용(Suyong Bahk),김영웅(Yeongwoong Kim),김휘용(Hui Yong Kim) 한국방송·미디어공학회 2023 한국방송공학회 학술발표대회 논문집 Vol.2023 No.6
사인파 활성화 함수 (SIREN, Sinusoidal Activation Function) 는 암시적 신경 표현 (INR, Implicit Neural Network) 분야에서 ReLU (Rectified Linear Unit) 활성화 함수에 비해 높은 성능을 보여 널리 사용되었다. 본 논문에서는 사인파 활성화 함수가 이미지의 연속적인 변화를 포착하는 능력이 뛰어나다는 점에 기인하여, 각 블록 간의 경계를 부드럽게 이어주는 디블로킹 (Deblocking) 모델에 해당 활성화 함수를 여러가지 방식으로 적용하고 성능을 비교한다. 본 연구를 통해 사인파 활성화 함수를 합성곱 신경망 (CNN, Convolutional Neural Network) 기반 모델에 적용하는 방법에 대한 통찰을 제공한다.
VVC와 특징맵 융합/재구성 신경망을 이용한 다중 스케일 특징맵 압축 기법
장승환(Seunghwan Jang),정혜원(Hyewon Jeong),김영웅(Yeongwoong Kim),유장현(Janghyun Yu),김휘용(Hui Yong Kim) 한국방송·미디어공학회 2023 한국방송공학회 학술발표대회 논문집 Vol.2023 No.6
최근 신경망 기술의 발전에 힘입어, 영상 처리, 패턴 인식 등 다양한 분야에서 신경망 기술이 적용되면서 기계를 위한 영상 압축 기술의 요구가 커지고 있다. 이러한 기계를 위한 영상 압축 기술에는 VVC를 활용하여 특징맵을 압축하는 기술이 있는데, 신경망을 통해 융합된 특징맵을 압축/복원하는 방법으로 이루어진다. 하지만, VVC를 활용한 특징맵 압축 기술은 VVC가 미분이 불가능하여 종단 간 학습을 통한 압축 잡음 학습이 불가능 하다는 한계가 존재한다. 본 논문은 이러한 한계를 해결하여 VVC를 활용하는 특징맵 압축 모델에 압축 잡음을 반영하고, 압축 잡음에 강인한 모델을 구성하는 방법을 제시한다.
블록 기반 특징맵 크기 조정을 이용한 DNN 특징맵 압축
윤규리(Curie Yoon),정혜원(Hye Won Jeong),김영웅(Yeongwoong Kim),김연희(Younhee Kim),정세윤(Se-Yoon Jeong),김휘용(Younhee Kim) 한국방송·미디어공학회 2022 한국방송공학회 학술발표대회 논문집 Vol.2022 No.6
자율주행, IoT 등 많은 양의 영상 정보를 실시간으로 처리해야 하는 기술과 mobile device 등의 기기에서 Machine Learning 연산을 하는 소프트웨어들이 등장함에 따라 사람을 위한 영상을 출력하는 영상 부호화 기술 대신 기계의 vision task 성능을 위해 특화된 영상 부호화 기술의 필요성이 대두됐다. 본 연구에서는 영상에서 추출한 특징맵을 Neural-Net based Video Coding 모델을 이용해 압축률과 기계의 vision task 성능을 동시에 최적화한다. 또한, 하드웨어 친화적인 block-based 처리와 이로 인한 성능 저하를 최소화하기 위해 적응적 resizing 방식을 제안한다.