
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
새소리 인식 end-to-end framewor : data pipeline과 transfer learning의 효용성 검증
곽기쁨 연세대학교 공학대학원 2023 국내석사
본 논문에서는 새소리 인식을 위한 End to End Framework를 제안한다. 제안한 framework의 특징은 크게 (1) 새소리 학습과 인식이 일련의 과정이 될 수 있도록 하는 data pipeline과 (2) 새소리 분류에 적합한 feature extraction과 transfer learning 기반 모델로 분류하는 것으로 나누어진다. Data pipeline은 training process와 recognition process로 구성되어 있는데, training process는 xeno-canto와 interface 하고 있어 빅데이터 기반으로 학습을 하고 recognition process는 입력된 새소리에 대해 인식한 결과를 보여주게 된다. 새소리 분류에 적합한 feature extraction과 딥러닝 모델은 실험을 통해 선정하였다. Feature extraction 선정 시 음향신호의 특징을 잘 추출해주는 Mel Spectrogram과 STFT Spectrogram, Wav2vec 2.0을 비교하는 실험을 하였고 사람의 청각을 모사한 Mel Spectrogram이 가장 좋은 성능을 보여주었다. 딥러닝 모델 선정 시 ResNet50 pretrain한 모델과 ResNet50 weight를 Random Initialization한 모델, CNN모델을 비교하는 실험을 하였고 transfer learning 기반인 ResNet50 pretrain한 모델이 가장 좋은 성능을 보여주었다. 본 논문에서는 아메리카 대륙 20종의 새소리를 분류하였고 15 epoch에서 loss와 accuracy는 (0.814, 77.901%) 라는 실험결과를 보여준다. In this dissertation, we propose an End-to-End Framework for bird sound recognition. The features of the proposed framework are largely divided into (1) data pipeline that allows bird sound learning and recognition to be a series of processes, and (2) feature extraction and transfer learning-based models suitable for bird sound classification. Data pipeline consists of a training process and a recognition process. The training process is interfacing with xeno-canto, so it learns based on big data, and the recognition process shows the result of recognizing the input bird sound. Feature extractions and deep learning models suitable for bird sound classification were selected through experiments. When selecting a feature extraction, an experiment was conducted to compare Mel Spectrogram, STFT Spectrogram, and Wav2vec 2.0, which extract the characteristics of sound signals well, and Mel Spectrogram, which simulates human hearing, showed the best performance. When selecting a deep learning model, an experiment was conducted to compare the ResNet50 pretrain model, the ResNet50 weight randomly initialized model, and the ResNet50 pretrain model, which is based on transfer learning, showed the best performance. In this dissertation, we classify the sounds of 20 species of birds in the Americas and show the experimental results of loss and accuracy (0.814, 77.901%) at 15 epochs.
자동차 LED 등화장치 광도 안전기준 개발에 관한 연구
권수민 연세대학교 공학대학원 2022 국내석사
본 논문은 자동차 등화장치의 광도 변화가 도로이용자에게 치는 정도를 평가하여 동차 안전기준 제·개정에 활용하고자 등화장치 광도 별 시인성 차이를 연구하였다. 광원 유형에 따른 할로겐 및 LED 전조등과 제동등의 광도를 변화하며 피실험자를 대상으로 변화 인지 여부를 JND(Just Noticeable Difference)와 리커트 척도(Likert Scale)를 활용한 주관적 만족도를 평가하였다. 전조등의 경우 50m 전방 타겟을 10,200cd의 불빛으로 비추는 것을 100%기준으로 보았을 때, 120% 부터 50% 까지 광도가 변화하더라도 보통 수준 이상의 시인성을 보였으며, 제동등의 경우 25m 전방 두 제동등의 불빛을 비교하고 60cd를 100%기준으로 보았을 때, 150% 부터 50% 까지 광도가 변화하더라도 보통 수준 이상의 시인성을 보인다는 점을 확인하였다. 또한, 전조등과 제동등 모두 JND가 50으로 나타남에 따라, 광도가 50% 변화할 때부터 피실험자들이 시인성의 차이를 느낀다는 결과를 도출하였다. The luminous intensity standard of vehicle lighting system is used in vehicle safety standard (KMVSS, Korean Motor Vehicle Safety Standards). The perception differences in visibility due to the changes in luminous intensity of headlamp and stop lamp are investigated in this thesis. Subjective perception was evaluated using JND (Just Notifiable Difference) and Likert Scale to determine whether the luminous intensity of headlamps and stop lamps changed depending on the type of light source (halogen and LED). As JND was shown to be 50, it was observed that both headlamps and stop lamps showed that subjects perceived the differences in visibility from the 50% change in luminosity.
고속화를 적용한 뇌 MR 확산 텐서 영상의 정확도 평가 방법
이유미 연세대학교 공학대학원 2014 국내석사
자기공명영상(Magnetic Resonance Imaging, MRI)은 의료 영상 검사 중 방사선 피폭이 없이 자기장으로 인체 내부의 영상을 구현할 수 있고 인체의 연조직들과 신경 등을 다른 영상 검사에 비해 높은 해상도로 구현할 수 있어 그 이용이 점점 증가되고 선호도가 높아지고 있으며 이에 따라 자기공명영상에 관한 연구가 활발히 이루어지고 있다. 이 중 하나의 검사 방법인 확산 텐서 영상(Diffusion Tensor Imaging, DTI)은 비 침습적인 방법으로 물 분자에 속한 수소 원자의 운동성을 측정하여 신경 섬유 다발의 방향에 따라 확산하는 성질을 이용하여 뇌 백질(white matter)의 비등방성(anisotropy)을 정량화하는 확산 영상 기법(Diffusion imaging technique)의 진보된 형태이다. 확산 텐서 영상(DTI)는 인체의 뇌신경 해부학을 이해하는데 큰 도움이 되고 있고 또한 실효성이 입증 되어 현재 임상에서도 보편적으로 사용되어지고 있는 검사 중 하나이다. 하지만 확산 텐서 영상은 부분 용적 효과와 각도 분해능을 고려하여야 하고 양질의 확산 텐서 영상을 위해서는 영상 획득 시간이 길어질 수밖에 없다는 단점이 있다. 대부분의 모든 영상 검사에서 중요한 문제점 중의 하나는 영상 검사는 움직임에 예민하다는 것이다. 실제 임상에서 환자의 영상을 얻는 데에 있어 가장 큰 어려움은 영상 검사를 하는 동안 환자의 움직임에 의해 영상 손실과 인공물이 생기는 것이다. 따라서 진단이 가능한 영상의 질을 유지하면서 최소한의 시간 내에 검사를 하는 것이 목표이며 최근에는 의료 영상에 고속화 기법을 적용하여 단 시간에 진단에 가능한 유용한 영상을 얻고자하는 연구가 계속되어지고 있다. 하지만 의료 영상의 평가는 판독의의 주관적 의견에 의존할 수밖에 없고 고속화 기법을 통한 의료 영상 복원의 정확도 또한 판독의의 정성적 평가에 의존할 수밖에 없다. 더욱이 정성적인 평가는 전문가에게 의뢰할 때 소요되는 비용과 시간의 제약을 받게 된다. 따라서 이러한 비용과 시간의 절약을 위해 본 연구에서는 MR 확산 텐서 영상에 고속화 기법을 적용하여 복원한 영상과 원본 영상의 정확도를 정량적으로 평가하기 위하여 fiber tract을 수치적으로 나타낼 수 있는 변수들의 상관관계를 분석하여 정량적 평가 방법의 기준을 제시하였다.
자기지도학습 기법을 통해 추출된 저대역 음성 특징벡터 기반 종단간 한국어 음성인식
박정준 연세대학교 공학대학원 2022 국내석사
본 논문에서는 콜 음성 데이터의 기본 sampling rate인 8kHz 한국어 도메인에서의 음성인식 성능 향상을 위해, 비전사 음성 데이터를 이용한 feature extractor 모델과 이를 결합한 종단간 한국어 음성인식 시스템의 딥러닝 네트워크 구조에 관하여 제안하였다. 원음성의 대표적인 특징을 잘 추출할 수 있는 contrastive learning 방법론을 사용하는 wav2vec 2.0 모델을 활용하여 8kHz sampling rate에 적합한 wav2vec 2.0의 convolution feature encoder 구조를 도출하였고, 성능 검증을 위해, 도출된 convolution feature encoder를 feature extractor 모델에 적용하고, 해당 feature extractor 모델을 8kHz sampling rate으로 변환된 Ksponspeech DB로 사전 학습하였다. 학습된 feature extractor 모델에 선형 레이어와 음절로 이루어진 소프트맥스 레이어를 추가한 후, ctc loss를 이용하여 8kHz sampling rate으로 변환된 Clovacall DB로 fine-tuning 시, 기존 wav2vec 2.0 모델 대비 CER 기준 20.4%, WER 기준 12.0% 정도의 상대적인 성능 개선이 있었다. 또한, 본 논문에서 제안한 종단간 한국어 음성인식 시스템의 성능을 검증하기 위해, 전사된 훈련 데이터가 풍부한 경우와 전사된 훈련 데이터가 적은 경우로 나눠서 다양한 실험을 진행하였고, 다양한 변인에 대한 성능 변화를 살펴보고, 성능 변화에 대한 분석을 진행하였다. 전사된 훈련 데이터가 풍부한 경우, Ksponspeech DB를 이용하여, feature extractor 모델 학습과 제안한 종단간 한국어 음성인식 시스템 학습을 진행하였으며, feature extractor 구조, encoder/decoder 구조 및 spec augmentation 적용 여부, feature extractor 모델의 학습 데이터 종류 및 훈련 업데이트 수에 따른 성능 변화를 살펴보고, 해당 성능 변화에 대한 분석을 진행하였다. 더 나아가 기존 종단간 한국어 음성인식 시스템과의 성능 비교를 진행하였고, 본 논문에서 제안한 종단간 한국어 음성인식 시스템은 기존 종단간 한국어 음성인식 시스템에 비해 Ksponspeech DB의 eval clean set에 대해서는 14.8% 이상의 상대적인 성능 향상이 있었고, Ksponspeech DB의 eval other set에 대해서는 19.0% 이상의 상대적인 성능 향상이 있었다. 전사된 훈련 데이터가 적은 경우, feature extractor 모델 학습 시에는 Ksponspeech DB 또는 Clovacall DB를 이용하였고, 제안한 종단간 한국어 음성인식 시스템 학습 시에는 Clovacall DB를 이용하여 학습을 진행하였다. 또한, 제안한 종단간 한국어 음성인식 시스템의 출력 노드에 해당되는 BPE 수 제한, feature extractor 모델의 학습 데이터 종류, pre-encoder 출력 차원에 따른 성능 변화를 살펴보고, 해당 성능 변화에 대한 분석을 진행하였다. 더 나아가, 기존 종단간 한국어 음성인식 시스템과의 성능 비교를 진행하였고, 본 논문에서 제안한 종단간 한국어 음성인식 시스템은 선행 논문 중에서 가장 높은 성능을 보인 K-Wav2vec 2.0 (Multi-task)에 비해, Clovacall evaluation set에 대해 10.9% 정도의 상대적인 성능 향상이 있었다. 본 연구는 비전사 데이터를 활용하여, 콜 데이터의 기본 sampling rate인 8kHz 한국어 도메인에서 다양한 변인에 대한 실험을 통해 제안한 feature extractor 모델과 제안한 종단간 한국어 음성인식 시스템의 성능 변화에 대한 분석을 진행했을 뿐만 아니라, 본 연구에서 제안한 종단간 한국어 음성인식 시스템은 기존 종단간 한국어 음성인식 시스템 대비 두드러진 성능 향상이 있어, wav2vec 2.0 모델을 feature extractor 모델로 사용하는 종단간 한국어 음성인식 시스템에 대한 이정표를 제시하였다는 점에서 의의를 지닌다. In this thesis, a feature extractor model using non-transcribed data was proposed to improve speech recognition performance at 8kHz, which is the basic sampling rate of call speech data in the Korean domain. The model was applied to a deep learning network structure of an end-to-end Korean speech recognition system. The wav2vec 2.0 model, which uses the contrastive learning methodology to extract representative features of the original speech well, was utilized to derive a convolution feature encoder structure of wav2vec 2.0 suitable for a sampling rate of 8kHz. This structure was applied to the feature extractor model, and the corresponding feature extractor model was pre-trained with Ksponspeech DB converted at an 8kHz sampling rate. The pre-trained feature extractor model fine-tuned with Clovacall DB converted to an 8kHz sampling rate using ctc loss was compared to the existing wav2vec 2.0 model. A relative performance improvement of 20.4% in terms of CER was observed. In addition, to verify the performance of the end-to-end Korean speech recognition system proposed herein, various experiments were conducted by classifying the cases wherein the transcribed training data were abundant and cases wherein they were not. When the transcribed training data were abundant, the end-to-end Korean speech recognition system proposed in this thesis performed better by 14.8% relative to the existing end-to-end Korean speech recognition system using the eval clean set of Ksponspeech DB. Additionally, the relative performance improvement was ≥19.0% for the eval other set of Ksponspeech DB. When a small amount of transcribed training data was used, the end-to-end Korean speech recognition system proposed in this thesis yielded an approximate relative performance improvement of 10.9% compared with K-Wav2vec 2.0 (Multi-task), which has yielded the highest performance in previous studies for the Clovacall evaluation set. In summary, this study analyzed the change in the performance of the proposed feature extractor model and the proposed end-to-end Korean speech recognition system through experiments on various variables in the 8kHz Korean domain, using non-transcribed speech data. Additionally, the end-to-end Korean speech recognition system proposed herein yielded a remarkable performance improvement compared to the existing end-to-end Korean speech recognition system. Therefore, the findings here present a significant milestone for the end-to-end Korean speech recognition system using the wav2vec 2.0 model as a feature extractor model.
적응형 칼만필터링을 이용한 멀티 라인스캔카메라 화질 개선 연구
하성현 연세대학교 공학대학원 2014 국내석사
최근 제품의 수율 및 품질 향상을 위해 제품의 불량유무를 검사하는 머신 비전 시스템의 도입이 제품과 제조 기업의 신뢰도를 위해 지속적으로 증가하고 있다. 그러나 FPD(Flat Panel Display) 검사 장비 시스템에서 시각센서를 사용하는 데에는 노이즈 및 오류들에 대한 더욱 정밀한 영상을 요구 받고 있다. 본 논문에서는 머신 비전 시스템 중 멀티라인스캔 카메라를 이용한 검사시스템을 설계함에 있어 기존의 멀티라인스캔 검사시스템에서 발생하는 측정 오차를 야기하는 멀티라인스캔 카메라의 센서 노이즈, 영상 노이즈와 라인 스캔 카메라 검사 방식에 의한 오류, 렌즈에 의한 왜곡에 따른 오류, 조명의 조도 변화에 따른 오류를 해결하는 방안을 제시하여 보다 더 정확한 영상 획득이 가능한 방법을 제안한다.멀티라인스캔 카메라의 영상을 획득 시, 이동 물체의 영상 획득으로 인하여 상대적으로 높은 시간적 상관 관계를 갖게 되며, 움직임의 경로를 따라 그 상관 관계를 가지게 된다. 따라서 시공간 필터링이 성공하기 위해서는 움직임 보상이 필요해진다. 그러나 움직임 보상은 많은 연산량을 요구하며 또한 움직임 보상이 제대로 되지 않은 경우의 멀티라인스캔 카메라의 영상은 측정에 많은 문제들을 야기한다.본 논문에서 제안하는 적응형 칼만필터링을 사용한 멀티라인스캔 카메라 시스템 설계에서 다양한 노이즈와 영상 왜곡 현상, 조명의 조도 변화에 따른 오류 대응을 위하여, 기존 라인 스캔 카메라의 선형적 캘리브레이션으로 얻어지는 고정된 픽셀의 계수 값들이 구조적으로 가지는 시공간 필터링에 대한 한계점들을 적응형 칼만 필터를 적용, 시공간에 따른 왜곡 요소에 보다 더 적응적인 픽셀 보정계수 값을 택하여 더 정확하고 노이즈에 강인한 영상 획득 방법을 적용하여 멀티라인스캔 카메라 혹은 오브젝트의 물리적인 움직임에 대한 보상과 노이즈를 제거 할 수 있었다. 이를 통하여 제안된 방법의 효율성을 실험적으로 입증하였다.
순환 중복 검사를 이용한 SPI-NOR flash의 데이터 복구 방법에 대한 연구
최병윤 연세대학교 공학대학원 2020 국내석사
Embedded and IoT devices generally store and use necessary data using NAND flash or NOR flash. In the case of NAND flash, data errors are frequent, so it is complemented by various methods. However, in the case of NOR flash, it has relatively little damage but because it has less storage capacity, it is used to record small amounts of data, such as used for bootloader images. Since NOR flash data has been reported in the actual field, a recovery method has been devised to solve this problem. As an error detection method, error detection was performed using a cyclic redundancy check, and data recovery was attempted by applying a retransmission technique when an error was found after a cyclic redundancy check between network data transmission and reception. In addition, during the recovery process, data read and write are managed by dividing them in block units to recover only the part where the error occurred. This was intended to reduce operational inconvenience by minimizing the time required for recovery. As a result of applying this, it was confirmed that recovery did not occur between 700 experiments, and it took about 85% less time to recover with the optimal block size compared to the time required to recover 2.5MB of all data. This paper aims to propose a recovery method for flash without a recovery method through a hardware technique. I hope that this paper will help reduce the cost and user inconvenience of replacing devices due to data corruption. 임베디드(Embedded) 및 사물인터넷(Internet of things) 기기들은 일반적으로 NAND 플래시 또는 NOR 플래시를 사용하여 필요한 데이터를 저장하여 사용하고 있다. NAND 플래시의 경우 데이터의 오류가 많이 발생하여 다양한 방법을 통해서 보완하고 있다. 하지만 NOR 플래시의 경우 비교적 손상이 적은 편이나, 저장할 수 있는 용량이 적어 그로 인해 부트로더 이미지를 위해서 사용하는 등 소용량 데이터를 기록하는 데 사용한다. 이러한 NOR 플래시의 데이터가 실제 현장에서 오류가 발생하는 경우가 보고되고 있어 이를 해결하기 위해 오류를 검출 및 복구하는 방법에 대해서 연구하였다. 오류 검출 방법으로써, 순환 중복 검사를 사용하여 오류 검출을 진행하였고, 네트워크 데이터 송·수신 간 순환 중복 검사 후 오류 발견 시 재전송하는 기법을 적용하여 데이터 복구를 시도하였다. 또한, 복구 과정 중 데이터 읽기, 쓰기를 블록 단위로 나누어서 관리하도록 하여, 오류가 발생한 부분만을 복구하도록 하였다. 이는 복구에 걸리는 시간을 최소로 하여 운영에 불편을 줄이고자 하였다. 700회의 실험을 수행한 결과 복구가 실패되는 경우는 발생하지 않았고, 2.5MB 전체 데이터를 복구하는데 걸리는 시간 대비 최적의 블록 크기로 복구 시 약 85% 시간이 적게 걸리는 것을 확인하였다. 본 논문은 하드웨어적인 기법을 통해서 복구하는 방법이 없는 플래시에 대해서 복구하는 방법을 제안하고자 하였다. 이 논문을 통해서 데이터 손상으로 인한 기기 교체를 통한 비용 및 사용자 불편 사항을 줄이고자 한다.
모바일 장치의 소모전류 개선을 위한 휴대용 측정 장비에 관한 연구
이한림 연세대학교 공학대학원 2014 국내석사
최근 칩 부품, 반도체의 고집적화로 인하여 전자 제품들이 고기능, 소형화되고 있으며 이로 인하여 모바일 기기(스마트폰, 태블릿PC 등) 시장이 엄청난 성장을 거듭하고 있다. 모바일 기기는 더 이상 일상생활에서 없어서 안 될 필수품이 되고 있다. 또한 모바일 기기 시장의 성장으로 인하여 의료용 기기 및 소형 가전등도 모바일 형태의 웨어러블 제품 형태로 진화하고 있다. 하지만 모바일이 진화하고 있는 것에 반하여 배터리의 진화는 아직도 제자리걸음을 하고 있는 실정이다. 따라서 현재 모바일 기기 업계의 가장 큰 이슈는 한정된 배터리 용량을 얼마나 효율적으로 사용하는가에 달려 있다. 본 논문에서는 위의 배터리를 얼마나 효율적으로 사용하고 있는지를 측정하기 위한 휴대형 소모 전류 측정 장비를 개발하여 소모전류를 언제 어디서나 효율적으로 측정하는 방법을 제안하고자 한다. 기존의 장비들은 소모전류를 섬세하게 측정이 가능한 것에 반하여 무게가 엄청나고 크기가 큰 문제로 인하여 이동을 하면서 소모전류를 측정하기 어려운 면이 있었다. 하지만 소형의 모바일 기기에 맞추어 소형의 휴대가 가능한 소모 전류 측정 장비는 이러한 이동의 문제점을 극복하고 일반적으로 사용자들이 모바일 기기를 사용하는 환경(생활형 이동)에서 모바일 기기의 소모전류를 측정할 수 있으며 이에 대한 데이터를 수집 저장하여 모바일 기기에 적합한 소모전류 측정 및 수정이 가능하게 한다. 아울러 본 논문에 소개된 제품에선 소모되는 전류량을 그래프로 표시하고 있으며 평균 소모량 또한 측정 할 수 있다. 또한 이동이 가능하므로 강 전계 혹은 약 전계 지역에 따른 소모전류 분석이 가능하다.
황원훈 연세대학교 공학대학원 2015 국내석사
This study aims to compare and analyze the characteristics of busduct and trunk line equipment for reduction of electric power loss. In order to achieve efficient management of electric power, it is more desirably important to block power loss at the trunk line equipment than to expand production facility. The trunk line equipment should have excellent mechanical and electrical properties, and it is also important to be compatible with a controlling system. As a result, this study proposes the more effective electrical power trunk line model to reduce power loss. For analyzing power loss of the electrical power trunk line, this study introduced samples that fields of low voltage and high voltage systems, busduct, and trunk line equipment, and it compared electrical properties by simulation, and then it quantifies the result values. This study has carried out two case studies: one for three-phase four-wire 4000[A] system busduct power trunk line and another for cables in IDC low voltage 380[V] system. The case studies have shown that the busduct system provides more power management with less voltage drop and the lower power loss compared to those of the cable, which are mainly due to the length change of the power trunk line with 1.08%(50m), 2.26%(100m), 4.99%(200m), and 12.46%(400m). The average value of the short-circuit current showed the higher as differently as Ip value is 7.12[kA] and Ik" value is 2.71[kA], and also the difference due to changing length is the higher as 19.70[kA] averagely. This study found that occupied area could be reduced as 345,100[㎟] and installing period could be reduced as 2.5 hours, compared to installing period of the cable. Also, the Busduct has a structural advantage that it is possible to connect PMS (a System for Power Management). Therefore, this study could identify that it is a future oriented power trunk line system because it could be possible to make data, as related to operation and power loss of power trunk line equipment, into information. The achievements of this study could be summarized as follows : ⅰ) This study makes differences of power loss quantified, depending on types of power trunk line and difference values of power loss for high voltage and low voltage systems, and it could compare loss factors. ⅱ) Also, this study could verify correlation with changing length of the power trunk line and the power loss. From now on, they are to be expected to change awareness of importance about the power loss in low voltage system, to make vitalize researches in future, and to become a reference material by the results of this study as electrical power system is designed. 본 논문에서는 전력의 손실을 감소시키기 위하여, 부스덕트와 케이블간선설비의 특성을 분석하고 비교하였다. 전력을 효율적으로 관리하기 위해서는 생산설비의 확충보다 중요한 것이 간선설비에서 발생하는 전력의 누수를 막는 것이다. 전력간선설비는 기계적 특성 및 전기적 특성이 우수하여야 하며, 제어시스템과의 호환성 역시 중요하다. 연구에 따른 결과로 전력손실 감소를 위한 효율적인 간선설비의 모델을 제시하였다. 전력간선의 손실을 분석하기 위해, 고압과 저압계통의 현장과 부스덕트와 케이블간선을 표본으로 상정하고, 시뮬레이션 실험을 통해, 전기적 특성을 비교하였고, 결과 값을 정량화 하였다. IDC 저압 380[V]계통에서 3상4선식 4000[A]부스덕트 전력간선을 케이블과 비교하였을 때, 전압강하율은 간선의 길이변화에 따라 1.08%(50m), 2.26%(100m), 4.99%(200m), 12.46%(400m) 등의 차이로 케이블 보다 적은 손실을 보였다. 단락전류 평균값은 Ip값7.12[kA], Ik"값 2.71[kA]의 차이로 더 높게 나타났고, 길이 변화에 따른 차이에서도 평균 19.70[kA] 더 높았다. 점유면적이 345,100[㎟] 절감 되며, 설치 기간은 케이블과 비교하여 약 2.5 시간 절감 되는 것으로 확인 하였다. 또한, 부스덕트는 PMS(Power Management 하기 위한 System)와 연계가 가능한 구조적인 장점이 있다. 따라서 전력간선 설비의 운영 및 손실과 관련된 자료를 정보화하는 것이 가능하여, 미래지향적 전력간선 시스템임을 확인하였다. 연구의 성과로 전력간선의 종류에 따른 전력손실의 차이와, 고압과 저압계통에 대한 전력손실의 차이 값을 정량화 하였고, 손실률을 비교 할 수 있었다. 또한 전력간선 길이의 변화와 전력손실과의 상관관계도 확인할 수 있었다. 앞으로, 저압계통에서 발생하는 전력손실의 중요성에 대한 인식이 변화되기를 바라고, 활발한 연구로 이어지길 기대며, 연구에 대한 결과는 전력계통 설계 시 참고자료가 될 수 있기를 희망한다.
Design of a Low Complexity Video Encoder for High Efficiency Video Coding
이재호 연세대학교 공학대학원 2014 국내박사
High Efficiency Video Coding (HEVC) is the latest video compression standard developed by the Joint Collaborative Team on Video Coding (JCT-VC) established together by the ITU-T Video Coding Experts Group (VCEG) and ISO/IEC Moving Picture Experts Group (MPEG). It achieves more than 50% bit rate savings with subjective image quality equivalent to that of the previous video coding standard H.264/AVC. HEVC employs the quad-tree structure based on the coding tree unit (CTU), in which coding unit (CU), prediction unit (PU), and transform unit (TU) are introduced to specify the basic processing unit of coding, prediction, and transform. These structures improve coding efficiency; however, the encoding complexity increases greatly because the rate-distortion (RD) optimization process should be performed for all combinations of CU, PU, and TU to obtain the optimal CTU partition. This increased complexity is a major problem especially for power constrained devices or real-time applications. Therefore, it is highly desirable to optimize the encoding process for computational complexity reduction while maintaining the coding efficiency of HEVC. In this dissertation, an efficient CU size decision algorithm is proposed to reduce the encoder complexity of HEVC. Based on the statistical analysis, three approaches are considered with SKIP mode decision (SMD), early CU termination (ECUT), and CU skip estimation (CUSE). In SMD, it is determined that the remaining modes except for SKIP mode are preformed or not. CUSE and ECUT determine that larger CU sizes and smaller CU sizes are coded or not, respectively. Thresholds for SMD, CUSE, and ECUT are designed based on Bayes’ rule with a complexity factor. Update process is performed to estimate the statistical parameters for SMD, CUSE, and ECUT considering the characteristic of RD cost. The experimental results show that the proposed CU size decision algorithm efficiently reduces the encoder complexity of HEVC with negligible degradation of coding performance for not only homogeneous sequences but also non-homogeneous sequences. In addition, SKIP mode enforced algorithm is proposed based on motion attention model for the additional encoding time reduction. The motion attention model is introduced as considering Human Visual System (HVS) with the intensity inductor, spatial coherence inductor, and the temporal coherence inductor. No attention region is determined according to motion attention model, SKIP mode is enforced to CU with no attention region although SKIP mode is not the optimal mode to reduce the encoder complexity. The subjective test shows that the proposed SKIP mode enforced algorithm enormously reduces the encoder complexity of HEVC with similar perceptual visual quality. Finally, the combined method with two proposed algorithms performs the vast time savings by more than 86% with similar perceptual visual quality.