RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • A Study on Systematic Performance Metrics and Encoding Schemes for Wireless Covert Channels

        성하영 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사

        RANK : 252703

        은닉 채널은 내부자가 네트워크 외부의 수신자에게 정상적인 통신 방법을 사용하지 않고 데이터를 유출하기 위한 통신 기법으로 숨겨진 통신 채널을 의미한다. 이는 데이터 유출의 방법으로써 악용될 수 있는데, 허가된 통신에서 일반적인 통신 방법이 아닌 네트워크 안에 새로운 통신 채널을 만들어 데이터를 유출하는 기생하는 채널을 통한 데이터 유출 공격 방법으로 활용된다. 악의적으로 사용 시 중요한 데이터를 약속 된 송수신자 이외에는 모르게 유출 시키는 것이 가능하다. 반대로 일반적인 사용자 입장에서는 민간함 정보를 보낼 때, 다른 사람들은 전송 자체를 알 수 없는 보안성을 가진 채널로도 사용될 수 있다. 결국, 사용자의 목적에 따라 악의적인 데이터 유출 채널 혹은 보안성을 가진 채널로 사용될 수 있다. 은닉 채널은 환경에 영향을 받지 않고 어떠한 환경에서도 통신 채널을 만들 수 있다는 장점을 가지고 있다. 즉, 송수신자 사이에 약속된 송수신 방법이 고도화 될수록 은닉성, 데이터 전송 속도 등이 좋아질 수 있다. 그러나 각 은닉 채널마다 사용하는 통신 방법이 다르고 매체가 다름으로 인하여 은닉 채널의 성능 분석을 위해 사용하는 성능 지표가 상이하다. 이로 인하여 은닉 채널 사이의 상대적인 성능 분석이 쉽지 않고 객관적인 수치를 이용한 비교도 어렵다. 본 논문에서는 은닉채널마다 서로 다른 성능 지표를 사용하여 객관적인 평가가 어렵다는 문제점을 보완하기 위하여 은닉 채널에 대해 성능을 다각도로 확인 할 수 있도록 은닉성, 안정성, 투명성, 기밀성, 전송속도에 해당하는 총 다섯가지의 체계적인 성능지표를 제안하고 있다. 여기서 성능 지표를 정리한다는 의미는 성능 분석을 위한 디테일한 방법이나 새로운 성능 지표 방법에 대한 제안 보다는 다양한 관점에서 성능 분석 영역들을 제시함으로 하나의 채널로써 제안되는 은닉 채널의 특징 및 장점을 종합적으로 나타낼 수 있음을 의미한다. 비슷한 환경에서의 은닉 채널에 대해 상대적인 평가가 가능한 성능 다이어그램을 새롭게 제안하고 있고 이를 통해 해당 은닉 채널이 가진 특징을 한눈에 확인 할 수 있도록 하고 있다. 또한, 정리된 성능지표와 관련하여 이를 만족하는 새로운 인코딩 기법을 제안하고 있다. 제안하는 새로운 인코딩 기법들은 Wi-Fi의 주기적 신호를 활용한 은닉 타이밍 채널을 구현하는 데 사용되었고, LTE-A 특정 패킷을 이용한 은닉 스토리지 채널을 위해 제안되었다. 첫째로, 우리는 은닉 채널에 대한 성능 지표를 체계적으로 구성하여 은닉성을 포함한 통신 성능 및 일반 사용자 관점 어우르는 성능 지표 다이어그램을 제안하고 있다. 둘째로, 우리는 IEEE 802.11 환경에서 새로운 인코딩 기법을 적용한 은닉 무선 단방향 통신 메커니즘을 제안하였다. 우리의 은닉 통신은 모든 상업용 AP의 비콘 패킷을 활용할 수 있는 은닉 타이밍 채널을 기반하고 있다. 우리가 제안한 무선 은닉 채널은 WLAN MAC 프로토콜의 펌웨어 수정만으로 구현할 수 있어 실제 AP에 적용이 가능하다. 또한, 다른 사람들에 의해 은닉 신호가 감지될 가능성을 크게 줄이기 위해 PPCTC (ping-pong covert timing channel)라는 새로운 간단한 은닉 데이터 인코딩 체계를 제안하였으며, PPCTC의 은밀성은 이전의 타이밍 기반 은닉 채널과 비교하여 위의 성능지표를 모두 만족하는 것을 보인다. 제안하는 무선 은닉 통신은 단방향 통신이지만, PPCTC는 연속 2비트 오류에 대한 복구 특성이 있어 안정적인 통신이 보장된다. 뿐만 아니라, 우리의 은닉 채널을 통해 전송되는 정보의 기밀성과 무결성을 제공하기 위한 은닉 프레임 구조도 제시되었는데, 이것은 은닉채널 연구에서 처음 시도되는 방법이다. 셋째로, 우리는 LTE-A (Long-Term Evolution-Advanced) 환경에서 시퀀스 번호의 복제를 사용하는 은닉 채널을 제안하였다. 우리는 숨겨진 데이터의 안전한 전송을 달성하면서 실제 통신과 유사한 프로세스를 제공하는 것을 목표로 하고 있습니다. 또한, 제안된 은닉 채널의 성능을 평가하기 위해 상용 무선 통신 장비를 사용한 무선 송수신 체계와 기밀성을 지원하는 전송 체계를 제공하고 실험 결과를 제시하고 있다 주요단어: 성능지표, 성능 다이어그램, 은닉채널, 은닉 AP, 모바일 은닉 채널, 은닉 프레임 A Covert channel refers to a communication technique used by insiders to leak data to external receivers without employing normal communication methods. This can be exploited as a method of data leakage, creating a hidden communication channel within the network by establishing a new communication channel not used in authorized communications. When maliciously used, this method allows for the leakage of critical data without the knowledge of anyone other than the agreed-upon sender and receiver. Conversely, from the perspective of regular users sending sensitive information, it can be utilized as a secure channel where others cannot discern the transmission itself. Ultimately, its usage can be directed either maliciously as a data leakage channel or positively as a secure channel, depending on the user's intentions. Covert channels offer the advantage of creating communication pathways unaffected by the environment, usable in various settings. Essentially, as the agreed-upon transmission methods between sender and receiver become more sophisticated, the covert channel's characteristics, such as covertness and throughput, can improve. However, the diverse communication methods employed by each covert channel, coupled with different media, make it challenging to use consistent performance metrics for their analysis. This complexity hinders straightforward relative performance evaluation between covert channels and complicates objective comparisons using numerical metrics. To address the difficulty of objectively evaluating covert channels with different performance metrics, this paper proposes a systematic set of five performance metrics: covertness, stability, transparency, confidentiality, and throughput. These metrics aim to provide a comprehensive view of covert channel performance from various perspectives. Rather than introducing new detailed methods or metrics, the goal is to present a range of performance analysis areas for the proposed covert channel as a whole. Additionally, a performance diagram is suggested, allowing for relative evaluations of covert channels in similar environments and providing a quick overview of the characteristics of the proposed covert channel. In the IEEE 802.11 environment, a new encoding technique for covert wireless unidirectional communication mechanisms is proposed. The covert communication is based on a covert timing channel that can utilize beacon packets from all commercial APs. Our proposed wireless covert channel is suitable for real public AP environments as it can be implemented with firmware modifications to WLAN MAC protocols. To significantly reduce the likelihood of detection by others, we propose a new simple covert data encoding system called PPCTC (ping-pong covert timing channel). The covertness of PPCTC satisfies all the above performance metrics compared to previous timing-based covert channels. While our wireless covert communication is unidirectional, PPCTC has a recovery feature for consecutive 2-bit errors, ensuring stable communication. Furthermore, we present a covert frame structure to provide confidentiality and integrity for the information transmitted through our covert channel, marking a novel attempt in covert channel research. In the LTE-A (Long-Term Evolution-Advanced) environment, we propose a practical covert channel using sequence number duplication. Our goal is to achieve secure transmission of covert data while providing a process similar to actual communication. Moreover, we provide a wireless transmission system using commercial wireless communication equipment for evaluating the performance of the proposed covert channel and present experimental results supporting confidentiality.

      • CorrFractal: 자기 지도 학습상에서 프렉탈 유사도를 사용한 고해상도 대응 방법

        최진모 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사

        RANK : 252687

        기존의 지도 학습 기반 방법들은 디코더 모듈을 이용하여 고해 상도 시각 대응을 수행하였다. 그러나 자기 지도 학습 기반 방법에 서는 라벨에 쉽게 영향을 받는 디코더 모듈을 사용하기 어렵다. 본 논문에서는 디코더 모듈 없이 고해상도 표현을 위한 자기 지도 학 습 기반 시각 대응 방법을 소개할 것이다. 이를 위해 네 가지 모듈 을 제안한다. 각 모듈은 원본 해상도의 출력을 가짐으로써 디코더 모듈의 역할을 분배하여 고해상도 표현을 수행한다. 첫 번째 모듈은 패턴 강화 양자화 모듈로 색상 정보와 함께 패턴 정보를 학습하여 고해상도 의사 라벨링을 만든다. 두 번째 모듈은 백본 모듈로써, 의 미론적 특징과 함께 고해상도의 특징을 집계를 이용하여 만든다. 세 번째 모듈은 형태 모듈로써, 고해상도 임베딩 공간의 특징을 이용하 여 형태 정보를 학습한다. 네 번째 모듈은 대응 모듈로써, 낮은 해 상도의 입력을 이용하여 점진적으로 고해상도 시각대응을 재건한다. 해당 모듈은 복수의 해상도를 입력으로 사용함으로써 밀림 문제를 완화한다. 제안하는 방법은 시각 대응을 위하여 객체의 경계 표현이 나 얇은 객체 표현 부분에서 성능이 개선됨을 확인하였다. 주요단어(Keyword) : 자기 지도 학습, 고해상도 표현, 시각 대응 Existing supervised learning-based methods performed high-resolution visual correspondence using a decoder module. However, in self-supervised learning-based methods, it is difficult to use a decoder module that is easily influenced by labels. This paper will introduce a self-supervised learning-based visual correspondence method for high-resolution representation without decoder module. To this end, the paper proposed four modules. Each module has an output of the original resolution and distributes the role of the decoder module to perform high-resolution expression. The first module is the pattern boosted quantization module, which learns pattern information along with color information to create high-resolution pseudo labeling. The second module is the backbone module, which is created by applying aggregation to the backbone network to simultaneously handle semantic features and high-resolution features. The third module is the appearance module, which learns appearance information using the features of the high-resolution embedding space. The fourth module is the correspondence module, which gradually reconstructs a high-resolution visual correspondence using low-resolution input. It was confirmed that the proposed method improves the performance about representation of thin objects and object boundaries Key words : High-resolution representation, Self-supervised learning, Visual correspondence

      • 합성곱 신경망을 사용한 흉부 방사선 사진의 폐렴 진단 및 생성형 인공지능을 사용한 치료 경과 예측 연구

        조성원 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 252687

        폐렴은 매년 사망원인의 높은 순위에 있는 흔하고 위협적인 질병이다. 폐렴의 진단에는 흉부 방사선, CT 등의 진단 도구를 사용하는데 여기서 얻은 영상을 통한 진단에는 전문가의 영상 분석이 필수적이다. 우리나라의 경우 공공의료 부문에서 흉부 방사선 검사를 활용한 진단을 전 국민에 대해 실시하므로 데이터의 규모는 매우 크지만, 이 데이터를 해석할 의료 인력은 상대적으로 적은 실정이다. 인공지능 기술을 활용하여 방사선 영상의 분석 및 진단이 상용화된다면 의료진의 부담을 줄여 신속하고 정확한 검사를 제공할 수 있을 것이다. 본 논문에서는 합성곱 신경망을 이용한 흉부 방사선 이미지에서의 폐렴 진단에 관해 연구하였다. 분류 신경망으로 흉부 방사선 이미지를 분류할 때 최대한의 성능을 얻기 위해 적절한 하이퍼 파라미터를 선정하고 다양한 데이터 증강기법을 적용한 뒤 모델의 구조를 수정했을 때 97% 이상의 분류 정확도를 보였다. 또한 생성 모델을 활용해서 치료 경과 이미지를 생성하는 연구를 진행하였는데 확산 모델에서 부분 확산 전략으로 일정 노이즈를 더한 비정상 이미지를 정상 이미지로 재생성한 이미지를 분류 신경망으로 분류하였을 때 90% 이상의 정상 이미지 분류 결과를 나타내었고 클래스 활성화 맵을 사용한 제어 행렬을 부분 확산 전략의 노이즈 추가 과정에 적용함으로써 더 적은 노이즈를 더했을 때도 90% 이상의 분류 결과를 얻을 수 있었다. 주요단어 : 흉부 방사선 이미지, 합성곱 신경망, 분류 신경망, 확산 모델 Pneumonia is a common disease that high ranked cause of death each year. Chest radiography is commonly used to diagnose pneumonia, and analysis by an expert is essential to the images obtained here. In Korea, the public medical sector conducts diagnosis using chest radiography for the entire nation, but there are relatively few medical experts to analyze. Applying artificial intelligence diagnosis can provide quick and accurate tests by reducing the burden on medical experts. In this paper, we study the diagnosis of pneumonia on chest radiographic images using convolutional neural networks. We select appropriate hyperparameters, apply various data augmentation techniques, and modify the structure of the model to achieve maximum performance of the classification network. As a result, we get a classification accuracy of up to 97%. Furthermore, we generate an image of the treatment course using a generative model. The abnormal image is regenerated as a normal image by adding a certain noise in the partial diffusion strategy with the diffusion model. Regenerated images classified with the classification network get up to 90% of the "normal" classified ratio, and by applying the control matrix using the class activation map to the noising process of the partial diffusion strategy, up to 90% of the classification result was obtained when less noise was added. Key words : Chest X-ray Image, Convolutional Neural Network, Classification Network, Diffusion Model

      • 투명 전도층의 두께 변화에 따른 전기 변색 소자 적외선 투과 성능

        이상규 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 252687

        지구 온난화 현상을 막기 위해, 탄소 에너지를 줄이고자 제로 에너지 건축과 같은 여러 정책이 시행되고 있다. 스마트 윈도우는 제로 에너지 건축의 핵심 요소로, 착색과 탈색 반응을 통해 가시광선과 근적외선 영역의 투과율을 자유롭게 조절할 수 있어 건물 내부로 침입하는 태양열의 침입을 막거나, 통과시킬 수 있어 에너지 보존에 뛰어난 효율을 보인다. 태양 에너지는 자외선과 가시광선, 적외선 영역으로 이루어진 에너지이며, 해당 에너지 중 90% 이상은 가시광선과 적외선 영역에 속한다. 때문에 스마트 윈도우의 차단 및 투과 성능을 개선하기 위해서는 해당하는 모든 파장 영역의 변조율을 개선하는 것이 중요하다. 다만 현재 스마트 윈도우 연구는 주로 가시광선 영역에 집중되어, 적외선 영역의 투과율 변조 성능에 대한 연구는 가시광에 비해 상대적으로 부족하다. 본 연구는 스마트 윈도우에 주로 적용되는 전기 변색 소자(Electrochromic Device, ECD)의 적외선 변조율을 개선하기 위한 연구이다. ECD의 구성요소 중 투명 전도층으로 사용되는 인듐 주석 산화물(Indium Tin Oxide, ITO)의 두께에 따라 ECD의 가시광선 및 적외선 영역의 투과 변조율에 끼치는 영향을 분석하였고, 이를 통해 가시광선 영역뿐 아니라 적외선 영역에서도 투과 변조율이 뛰어난 소자를 제작하였다. 분석 결과, ITO의 두께에 비례하여 가시광선과 적외선 영역 파장의 ECD 투과 변조율은 감소하였으며, 이는 가시광선 영역보다 적외선 영역에서 큰 영향을 끼쳤다. 이에 전류가 충분히 통하면서도 ITO의 영향이 적은 전극을 사용하여 ECD를 제작하였다. ITO의 영향이 적은 전극은 영향이 큰 전극에 비해 가시광선 영역의 변조율은 4%, 적외선 영역의 변조율은 33% 가량 더 높게 나타났다. 주요단어(Keyword) : 전기 변색 소자, 인듐 주석 산화물 , 가시광선 투과 변조율, 적외선 투과 변조율 To mitigate global warming, various policies such as the implementation of zero-energy buildings aimed at reducing carbon energy usage are being enforced. Smart windows play a crucial role in zero-energy buildings, allowing the manipulation of visible and near-infrared light transmission by utilizing coloration and bleaching reactions. This capability helps to efficiently control the influx of solar heat into the building, contributing to superior energy conservation. Solar energy is composed of ultraviolet, visible light, and infrared regions. With over 90% of this energy falling within the visible and infrared spectra, it is essential to improve the modulation in both of these regions to further enhance the solar heat blocking and transmission performance of smart windows. However, current research on smart windows predominantly focuses on the visible light spectrum, and studies on the modulation performance of infrared light transmission are comparatively limited. This research aims to enhance the infrared transmittance modulation of the Electrochromic Device (ECD), primarily applied to smart windows. Indium Tin Oxide (ITO) is used as the transparent Conductive layer among the components of the ECD, and this research analyzed its impact on the light transmission modulation in both the visible and infrared spectra with variations in its thickness. Additionally, this research successfully fabricated a component with excellent light transmission modulation in both the visible and infrared light spectra. The analysis revealed that the ECD light transmission modulation in both visible and infrared regions decreased proportionally with the thickness of ITO, with a more significant impact observed in the infrared region than in the visible region. As a result, when using an electrode with minimal influence from ITO, resulting in a 4% higher modulation in the visible spectrum and approximately 33% higher modulation in the infrared spectrum compared to electrodes with more significant impact. Key words : Electrochromic Device, Indium Tin Oxide, Visible Transmittance Modulation, Infrared Transmittance Modulation

      • 안정적인 리튬 전착을 위한 무음극 전고체 전지용 고분자 나노층 기반 집전체 개질 연구

        조성은 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 252687

        Lithium-ion batteries (LIBs) currently in commercial use are primarily employed in small devices due to their high energy density and long lifespan compared to conventional batteries. However, these batteries, utilizing organic electrolytes, possess characteristics of flammability and thermal instability, posing significant safety concerns. Moreover, with the advent of electric vehicles, there is an increasing market demand for higher energy density in secondary battery systems. All-Solid-State batteries (ASSBs) have emerged as next-generation batteries aiming to address safety issues associated with organic electrolytes while enhancing energy density by utilizing high-capacity cathodes or lithium metal as the anode. Particularly, Anode-Less All- Solid-State batteries (ALASSBs) are gaining prominence as an ideal battery solution, especially for large-scale secondary applications like electric vehicles and Energy Storage Systems (ESS), driven by concerns related to climate change.However, ALASSBs face challenges such as interface segregation between the solid electrolyte and electrodes during the lithium insertion/extraction process, resulting in low cycle stability. To address this limitation, prior research has been conducted on modification of current collector, 3D structural design, and binder modifications. This study aimed to overcome the limitations of conventional Anode-less All-Solid-State batteries by modifying the electrode surface using conductive polymers PEDOT:PSS and Styrene Butadiene Rubber(SBR) to form ultra-thin nano layer, analyzing their electrochemical properties. The blending of these polymers enhanced the mechanical properties of the polymer softly, promoting intimate interfacial formation between the electrode and solid electrolyte, thereby inducing uniform lithium plating. The lithium metal deposited on the PEDOT:PSS and SBR coated current collector exhibited dense and uniform morphology, attributed to reduced lithium nucleation energy and lower overpotential, leading to the formation of a uniform interface. We achieved that the characteristics of supple polymers facilitate the stable formation of interfaces between the electrode and solid electrolyte, enabling uniform lithium-ion flux and plating. Key words : Anode-Less, Anode-Free, Anode-Less All-Solid-State batteries, All-Solid-State batteries, Polymeric nano layer, Stable interface, Uniform Li deposition, Nucleation voltage 현재 상용화된 리튬이온배터리 (Lithium ion batteries, LIBs) 는 기존에 사용된 전지 들보다 높은 에너지밀도와 장수명의 특성으로 인해 휴대폰, 노트북 등과 같이 소형 기기에 주로 사용된다. 리튬이온배터리는 유기 전해액의 사용으로 가연성, 열적 불 안정성의 특성을 가지며 매우 큰 안전성의 문제를 가진다. 또한, 전기자동차의 등장 에 따라 에너지밀도가 높아진 이차전지 시스템에 대한 시장 요구가 증가하고 있다. 이러한 상황에서 전고체 전지(All-Solid-State batteries, ASSBs)는 기존에 사용되지 못 한 고용량의 양극이나 리튬금속을 음극으로 사용하며 에너지밀도를 높임과 동시에 유기 전해액의 사용으로 인한 안전성 문제를 해결하는 차세대 전지로 부상하고 있 다. 특히, 기후변화로 인한 환경문제로 전기자동차, ESS와 같은 중대형 2차전지에 대한 시장의 요구가 증가함에 따라 에너지밀도를 높인 무음극 전고체전지 (Anode- Less All-Solid-State batteries, ALASSBs)가 이상적인 배터리로 주목받고 있다. 그러나 무음극 전고체전지는 리튬의 전/탈착 과정에서 전해질과 전극 간의 계면 분리 현상 이 일어나며 사이클 안정성이 낮다는 문제점이 있다. 이를 해결하기 위해 집전체 개질 연구, 3D 구조 도입, 바인더 개질 등의 선행연구가 이루어지고 있다. 본 연구는 기존의 무음극 전지가 가진 한계를 해결하기 위해 전도성 고분자 PEDOT:PSS와 SBR을 활용하여 초박막 고분자 전극을 제작하고 전기화학적 특성을 분석하였다. 두 고분자의 조합으로 고분자의 기계적 물성이 부드러운 성질로 변화 하면서 전극과 전해질 간 밀접한 계면 형성이 이루어지며, 균일한 리튬 전착을 유 도하였다. PEDOT:PSS와 SBR이 코팅된 집전체 위에 전착된 리튬 금속은 밀도가 높 고 균일한 형상을 가지고 있었으며, 이는 낮은 리튬 핵 생성 에너지가 낮아지며 과 전압이 낮아짐에 따라 균일한 계면이 형성되기 때문이다. 이러한 연구 결과를 통해, 부드러운 고분자의 특성이 전극과 전해질 간 계면을 안정적으로 형성하면서 균일한 리튬 이온 플럭스를 통한 리튬 전착이 일어나는 것을 확인하였다. 주요단어(Keyword) : Anode-Less, Anode-Free, 무음극전고체전지, 전고체전지, 고 분자 나노 레이어, 계면 형성, 균일한 리튬 전착, 리튬 핵 생성 에너지

      • Robust Face Segmentation in Real-World: Integrating Self-Attention and Self- Distillation

        한승은 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 252687

        얼굴 영역 분할은 얼굴 분석 분야에서 중요한 역할을 한다. 기존의 연구들은 목걸이, 귀걸이와 같이 크기가 작거나 얇은 클래스의 영역에서 낮은 성능을 보이며, 마스크, 손 등과 같은 가려짐 상황에 대응하지 못하는 문제가 있었다. 본 연구에서는 이러한 문제를 해결하기 위해, 자가 주의력(self-attention) 및 자가 증류(self- distillation) 기법의 통합을 통한 실제 환경에서의 강인한 얼굴 영역 분할 기술을 제안한다. 자가 주의력(self-attention) 모듈은 컨텍스트 정보를 학습하여 각 요소 별 특징을 정확하게 찾아내며, 이와 함께 가장자리 인식(Edge Detection)을 다중 작업 학습(Mult-Task Learning)하고 가장자리 부분에 중점을 둔 손실 함수를 설계하여 미세한 구조와 윤곽을 명확하게 파악할 수 있도록 했다. 더불어, 자가 증류(self-distillation) 기법을 활용한 미세 조정(fine-tuning)은 효율적으로 정교한 분할 결과를 얻을 수 있게 하며, 레이블이 부족한 상황에서도 높은 성능을 유지하면서 더 강력하게 일반화될 수 있게 한다. 또한, 마스크, 손 등과 같은 가려짐 상황에 대비하기 위해 새로운 data augmentation 기법을 제안 및 활용하였다. 실험을 통해 CelebAMask-HQ 데이터셋에서 Mean F1 score 88.18%으로 SOTA 성능을 달성하였다. 손과 마스크와 같은 가려진 영역에서도 F1 score 99% 이상의 성능을 나타내며, 실제 환경에서 강인한 얼굴 영역 분할 능력을 보여준다. 이를 통해 얼굴 영역 분할이 얼굴 인식 분야에 중요한 역할을 할 수 있음을 입증하였고, 나아가 얼굴 분석 분야 전반에서 적극적으로 활용될 수 있는 가능성을 제시하였다. Face segmentation plays a crucial role in facial analysis, accurately identifying key components such as eyes, nose, mouth, and skin at the pixel level. Previous studies faced challenges, showing lower performance in areas with small or thin classes like necklaces and earrings. Additionally, previous studies struggled to adapt to occlusion scenarios, such as masks or hands. It indicates that previous studies have limitations in effectively segmenting detailed areas, particularly in occlusion scenarios commonly encountered in real-life situations. To address these issues, this study proposes a robust face segmentation technique through the integration of self-attention and self-distillation methods. The self-attention module learns contextual information to precisely identify features for each element. By employing multi-task learning for edge detection and designing a loss function that focuses on edge regions, the study enhances the understanding of fine structures and contours. In addition, the utilization of self-distillation for fine-tuning proves to be efficient, producing more refined segmentation results while maintaining high performance in situations with limited labels and achieving robust generalization. Novel data augmentation techniques are introduced and applied to address occlusion scenarios such as masks and hands. The proposed approach achieves a Mean F1 score of 88.18% on the CelebAMask-HQ dataset, marking a state-of-the-art (SOTA) performance. Even in occlusion areas such as hands and masks, it demonstrates a performance of over 99% in F1 score, showcasing robust face segmentation capabilities in real-world environments. To validate the hypothesis that face segmentation is crucial in face verification, experiments were conducted on the MLFW dataset. Utilizing face segmentation as a preprocessing step for face verification led to an observed performance improvement of 0.15%. It validates the crucial role of face segmentation in facial recognition and highlights its capacity for extensive application across a wide spectrum of facial analysis.

      • 비디오 의미 구간 탐지를 위한 후보 구간 매칭 및 보정 네트워크 : 2D 시간적 후보 구간 보정 및 크로스 모달 대조 학습 이용

        설무아 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 252687

        Temporal moment localization (TML) aims to retrieve the best moment in a video that matches a given sentence query. This task is challenging as it requires understanding the relationship between a video and a sentence, as well as the semantic meaning of both. TML methods using 2D temporal maps, which represent proposal features or scores on all moment proposals with the boundaries of start and end times on the m and n axes, have shown performance improvements by modeling moment proposals in relation to each other. The methods, however, are limited by the coarsely pre-defined fixed boundaries of target moments, which depend on the length of training videos and the amount of memory available. To overcome this limitation, we propose a boundary matching and refinement network (BMRN) that generates 2D boundary matching and refinement maps along with a proposal feature map to obtain the final proposal score map. Our BMRN adjusts the fixed boundaries of moment proposals with predicted center and length offsets from boundary refinement maps. In addition, we introduce the length-aware proposal-interactive feature map extraction that combines a cross-modal feature map and a similarity map between the predicted duration of the target moment and each moment proposal and then obtain the final proposal feature map through two-stream proposal interaction by applying for two-dimensional convolution and transformer layers to the combined feature map. We also improve the performance of BMRN with our cross-modal contrastive approach for TML. BMRN and BMRN-CCL outperform SoTA methods on Charades-STA and ActivityNet Captions datasets, outperforming state-of-the-art methods by a large margin. Through comprehensive ablation studies, we also show the effectiveness of component losses, modules for cross-modal interaction, proposal interaction, boundary matching and refinement, and cross-modal contrastive learning. Key words : Temporal moment localization, Video understaning, multi-modal learning, 2D-map proposal refinement, Cross-modal contrastive learning 비디오 의미 구간 탐지(Temporal moment localization, TML)는 주어진 문장의 의미에 맞는 비디오 구간을 찾는 것을 목표로 한다. 이 작업은 문장의 의미를 이해하고, 비디오 장면과 문장 간의 관계 성을 찾아야 하므로, 매우 어려운 과제에 속한다. 이를 위한 기존 방법론으로 y축을 시작 시간 x축을 종료 시간으로 하는 2D 시간적 후보 맵을 만들어서, 각 후보 구간의 점수를 도출하는 방식이다. 이 방법은 후보 구간들 간의 상호작용을 모델링함으로써 큰 성능 향상 을 보였다. 그러나 기존 방법의 한계점으로 입력된 비디오의 길이 또는 사용 가능한 컴퓨터 메모리 양에 따라 사전에 정의되고 경계 가 고정된 후보 구간을 이용하므로 정답 구간에 대해 정확한 탐지 를 할 수 없다. 이러한 한계점을 극복하고자, 구간 탐지 및 경계 보 정 네트워크(Boundary Matching and Refinement Network, BMRN)를 제안하였다. 이 네트워크는 최종 후보 구간 점수 맵을 얻 기 위해 2D 후보 구간 특징과 구간 매칭 및 후보 경계 보정 맵을 생성 한다. 후보 구간 보정 맵은 후보 구간의 중심 위치 및 길이를 보정하여 고정된 경계를 조정한다. 또한 크로스 어텐션을 활용하여 후보 구간 길이 스케일에 따른 2D 후보 특징 맵을 추출 하였고, 정 답 구간의 길이를 예측해 각 후보 구간과의 길이 유사성 맵을 만들 어 후보 구간에 바이어스를 주는 방법을 제안하였다. 그리고 후보 구간들 간의 상호작용을 위해 컨볼루션 레이어와 트랜스포머 레이 어를 도입해 보다 효과적인 상호작용 방법을 제시하였다. 또한 크로 스 모달 대조 학습을 통해 비디오와 문장 특징을 보다 정밀하게 연 관시킨 모델인 BMRN-CCL은 기존 BMRN의 성능을 높였다. 제안 한 BMRN-CCL 네트워크는 두 가지 벤치마크 데이터 셋 Charades-STA, ActivityNet Captions에서 기존 SoTA(State of the Art) 모델 대비 큰 마진으로 성능 향상을 보였다. 그리고 다양한 Ablation 실험 결과를 통해 각 손실 함수 및 모듈의 효과성을 입증 하였고, 정성적 실험 결과를 통해 제안한 방법이 2D 후보 점수 맵 이 정답 구간을 잘 추종하며 각 후보 구간의 경계 보정 또한 잘 되 고 있음을 확인할 수 있다. 주요단어(Keyword) : 비디오 의미 구간 탐지, 비디오 이해, 멀티 모 달 학습, 2D 후보 구간 보정, 크로스 모달 대조 학습

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼