최근 고화질 미디어 콘텐츠에 대한 수요가 급증하면서, 저해상도 이미지를 선명하게 복원하는 초해상화 기술의 중요성이 더욱 부각되고 있다. 그 러나 기존 CNN 및 트랜스포머 기반 모델은 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17354985
서울 : 세종대학교 일반대학원, 2025
학위논문(석사) -- 세종대학교 일반대학원 , AI로봇학과 AI로봇학 , 2026. 2
2025
한국어
서울
57 ; 26 cm
지도교수: 이진영
I804:11042-200000951279
0
상세조회0
다운로드최근 고화질 미디어 콘텐츠에 대한 수요가 급증하면서, 저해상도 이미지를 선명하게 복원하는 초해상화 기술의 중요성이 더욱 부각되고 있다. 그 러나 기존 CNN 및 트랜스포머 기반 모델은 ...
최근 고화질 미디어 콘텐츠에 대한 수요가 급증하면서, 저해상도 이미지를 선명하게 복원하는 초해상화 기술의 중요성이 더욱 부각되고 있다. 그 러나 기존 CNN 및 트랜스포머 기반 모델은 고주파수 정보를 제대로 복원 하지 못해 흐릿한 화질을 생성하고, GAN 기반 모델은 학습의 불안정성으로 인해 다양한 형태의 왜곡이 발생하는 한계를 지닌다. 이를 보완하기 위해 등장한 확산 모델은 사실적인 질감 생성 능력에서 뛰어난 성능을 보였 지만, 저해상도 입력 정보를 단일 방식으로 처리하는 구조적 제약으로 인해 원본 구조가 왜곡되는 문제가 여전히 존재한다. 본 연구는 이러한 문제를 해결하기 위해, 저해상도 조건 정보를 의미 경로와 구조 경로라는 두 개의 독립적 흐름으로 분리하여 활용하는 새로운 이중 경로 조건화 구조를 제안한다. 제안하는 모델은 의미 경로를 통해 전역적 맥락을 심층 의미론적 단계에 적용하여 전체적인 문맥의 일관성을 보장하고, 구조 경로를 통해 지역적 세부 정보를 얕은 복원 단계에 직접 삽입하여 픽셀 수준의 정밀한 구조 복원을 유도하는 이원적 전략을 따른다. 제안 모델을 표준 벤치마크에서 평가한 결과, 트랜스포머 기반 모델에서 나타나는 흐릿한 화질 문제를 효과적으로 해소하면서 선명도를 유지하였고, 확산 모델에서 빈번히 발생하는 구조적 왜곡을 억제하였다. 특히 Mean Opinion Score(MOS) 기반의 주관적 화질 평가에서 제안 모델은 평가자들에게 비교 모델 대비 더 높은 점수를 기록하였다. 이는 제안 모델에서 저해상도 정보의 이원적 처리가 인간 지각 화질 향상에 실질적으로 기여함을 명확히 보여준다. 주요어 : Image Super-Resolution, Diffusion Model, Dual-path Conditioning, Perceptual Quality, Global Context, Local Detail
다국어 초록 (Multilingual Abstract)
With the surging demand for high-quality media content, Single Image Super-Resolution has become increasingly critical for restoring low-resolution images with high fidelity. However, traditional CNN and Transformer-based models often suffer from over...
With the surging demand for high-quality media content, Single Image Super-Resolution has become increasingly critical for restoring low-resolution images with high fidelity. However, traditional CNN and Transformer-based models often suffer from over-smoothed results in high-frequency regions due to their inability to fully recover fine details. Conversely, GAN-based models, while improving sharpness, frequently generate various forms of distortions due to training instability. To overcome these limitations, diffusion models have emerged as a powerful alternative with superior texture generation capabilities. Nevertheless, they face fundamental limitations arising from processing low-resolution (LR) information in a unified manner. This structural constraint often leads to "structural distortion" where the model probabilistically generates details that deviate from the original structure, even if the visual quality appears enhanced.
To fundamentally address these challenges, this study proposes a novel Dual-Path Conditioning architecture that disentangles LR condition information into two independent streams: global context and local details. The proposed model adopts a dual strategy where the global context is injected into the deep semantic stages of the network to guide overall consistency, while local details are applied directly to the shallow restoration stages to facilitate precise pixel-level structural recovery.
Extensive experiments on standard benchmarks demonstrate that the proposed model effectively resolves the blurriness issues of Transformer-based models while maintaining sharpness, and simultaneously suppresses the structural distortions frequently observed in diffusion models. Notably, in subjective quality evaluations based on Mean Opinion Score (MOS), evaluators rated the proposed model as having the most natural quality, free from both distortions and blurriness, demonstrating a distinct advantage over existing methods. This MOS-centric analysis clearly indicates that the dual-path processing of LR information significantly contributes to the enhancement of human perceptual quality.
Keywords : Image Super-Resolution, Diffusion Models, Dual-Path Conditioning,
Perceptual Quality, Global Context, Local Detail
목차 (Table of Contents)