
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
디지털 기술 수용의 결정요인에 관한 연구 : 공간컴퓨팅 사례를 통한 소비자의 혁신성과 기대-인식 적합성의 조절 및 매개효과를 중심으로
김헌진 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
공간컴퓨팅 기술은 몰입적 상호작용과 초실감형 콘텐츠를 통해 기존 디지털 환경을 혁신할 차세대 기술로 주목받고 있다. 그러나 제품의 상용화에도 불구하고 시장 반응은 기대에 미치지 못하고 있으며, 소비자 수용 역시 저조한 수준에 머물고 있다. 이러한 현상을 설명하고자 다양한 기술수용 연구들이 시도되어 왔으나, 대부분은 수용 결정요인과 수용의도 간의 선형적 인과관계에 중점을 두었으며, 개인의 특성과 기술에 대한 기대와 인식 간 상호작용은 상대적으로 간과되어 왔다. 본 논문은 이러한 한계를 보완하기 위해, 확장된 통합기술수용이론(UTAUT2)에 기대-인식 적합성 개념을 접목한 통합모형을 제시하였다. 구체적으로, 소비자 혁신성을 독립변수로, 수용 결정요인(성과기대, 노력기대, 사회적 영향, 유희적 동기)을 매개변수로, 기대-인식 적합성(실감성, 상호작용성, 활용성)을 조절변수로 설정하여, 수용의도에 이르는 조절된 매개효과 구조를 설계하였다. 일반인 1,000명을 대상으로 실시한 온라인 설문조사 데이터를 바탕으로 부분최소자승 구조방정식모형(PLS-SEM)을 활용한 분석 결과, 첫째, 소비자 혁신성은 모든 수용 결정요인과 수용의도에 유의한 영향을 미쳤으며, 각 수용 결정요인 또한 수용의도에 긍정적 영향을 미치는 것으로 나타났다. 둘째, 노력기대, 사회적 영향, 유희적 동기는 소비자 혁신성과 수용의도 간 관계에서 유의한 매개효과를 형성하였다. 셋째, 기대-인식 적합성 중에서 실감성 요인은 유희적 동기 경로에서 유의한 조절된 매개효과를 보여주었으며, 이는 실감성에 대한 소비자의 기대와 인식 간 적합성이 수용의도에 영향을 줄 수 있음을 시사한다. 이러한 결과는 기술수용이 단선적인 경로가 아닌, 개인의 성향과 기술에 대한 기대-인식 적합성 간 상호작용을 포함하는 다층적 인과구조에 의해 형성된다는 점을 실증적으로 입증하였다. 이론적으로는 기존 기술수용 이론의 설명력을 확장하고, 기대-인식 적합성 개념을 구조모형에 통합함으로써 모형의 확장 가능성을 제시하였다. 실무적으로는 유희적 동기와 사회적 영향력을 활용한 초기 수용 전략이 효과적일 수 있으며, 실감형 기술의 구현과 함께 소비자의 기대와 인식 간 간극을 줄이는 접근도 수용의도 제고에 중요한 역할을 할 수 있다. Spatial computing is gaining attention as a next-generation innovation that transforms the existing digital environment through immersive interactions and hyper-realistic content. Despite the commercial availability of such technologies, market responses have fallen short of expectations, and consumer acceptance remains limited. To explain this phenomenon, various studies on technology acceptance have been conducted; however, most have primarily focused on simple causal relationships between acceptance determinants and behavioral intention. Consequently, both individual characteristics and the fit between expectation and perception of technological attributes have been relatively overlooked. To address this limitation, we propose an integrated model that incorporates the concept of expectation–perception fit into the extended Unified Theory of Acceptance and Use of Technology (UTAUT2). Specifically, consumer innovativeness is positioned as the independent variable; acceptance determinants (performance expectancy, effort expectancy, social influence, and hedonic motivation) serve as mediating variables; and expectation-perception fit (immersiveness, interactivity, and applicability) is introduced as a set of moderating variables. This framework establishes a moderated mediation structure to explain behavioral intention in the context of spatial computing technologies. Based on an online survey of 1,000 respondents, we conducted a partial least squares structural equation modeling (PLS-SEM) analysis and found the following results. First, consumer innovativeness significantly influenced all acceptance determinants and behavioral intention, and each determinant also positively affected behavioral intention. Second, effort expectancy, social influence, and hedonic motivation mediated the relationship between consumer innovativeness and behavioral intention. Third, among the dimensions of expectation-perception fit, immersiveness exhibited a significant moderated mediation effect in the hedonic motivation pathway, suggesting that fit between the expected and perceived immersiveness may influence behavioral intention. These results empirically demonstrate that technology acceptance is not a simple causal process, but rather emerges from a multi-dimensional causal structure involving the interaction between personal characteristics and the expectation–perception fit of the technology. Theoretically, we extend the explanatory scope of existing technology acceptance models by integrating the fit concept into the structural framework. The findings suggest that strategies emphasizing hedonic motivation and social influence could facilitate early acceptance of spatial computing technologies. Enhancing the fit between expectations and perceptions may constitute a mechanism that strengthens behavioral intention.
김선희 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사
기계 번역은 인공지능 기술을 활용하여 특정 언어를 다른 언어로 변환하는 기술을 의미한다. 초기의 기계 번역 기술은 규칙 기반 및 통계 기반 접근 방식을 사용하였으나, 최근 10년 동안에는 신경망 기계 번역(Neural Machine Translation, NMT)이 주로 사용되고 있다. NMT는 단어를 매칭하여 번역하는 기술을 넘어 문맥을 이해하고 이를 반영하여 번역 결과를 생성함으로써 번역 품질을 크게 향상시켰다. 특히, transformer 모델은 이전의 순환신경망 기술 보다 높은 성능을 달성하였으며 번역 뿐만 아니라 다양한 분야에서 사용되고 있다. 본 논문에서는 transformer 기술이 적용된 NMT를 사용하여 데이터 및 언어별 특성에 적합한 모델 학습 방법을 탐구하고자 한다. 또한, 하이퍼파라미터가 언어별 번역 성능에 미치는영향을 정량적 수치로 분석하고자 한다. 일반적으로 NMT는 문어체 데이터를 사용하여 모델을 학습한다. 그러나 본 연구에서는 대화체 데이터를 활용하여 번역 모델을 개발하고, 대화체 데이터와 문어체 데이터의 차이점을 분석하여 대화 상황에 적합한 번역 모델을 제안한다. 더불어, 기계 번역 분야가 주로 로마자 기반 언어로 연구되던 것에서 벗어나, 아시아 언어에 집중하여 아시아 병렬 코퍼스 학습에 적합한 하이퍼파라미터 설정 값을 분석하고 그에 따른 번역 성능의 차이를 관찰하고자 한다. 또한, 언어 쌍에 따라 번역 성능에 주요 영향을 미치는 하이퍼파라미터가 무엇인지, 언어별 효과적인 기계 번역 학습법을 제안하고자 한다. 이 연구는 다양한 언어 쌍에 대한 기계 번역의 효율성을 증대시키고 번역 품질을 개선하기 위한 학습 방법과 하이퍼파라미터 설정에 대한 통찰을 제공하고자 한다. Machine translation refers to the technology that uses artificial intelligence to translate one language into another. Early machine translation technologies used rule-based and statistical approaches, but over the past decade, Neural Machine Translation (NMT) has predominantly been used. NMT goes beyond word-to-word translation by understanding context and incorporating it into translation results, significantly enhancing translation quality. In particular, the transformer model has achieved higher performance compared to earlier recurrent neural network technologies and is being used not only in translation but also in various fields. This paper aims to explore methods for training models suitable for data and language-specific characteristics using NMT with transformer technology. Additionally, it seeks to analyze the quantitative impact of hyperparameters on translation performance across different languages. Typically, NMT trains models using written text data. However, this study aims to develop translation models using conversational data, analyzing the differences between conversational and written text data to propose a translation model suitable for conversational situations. Furthermore, departing from the predominant research focus on Roman-script languages, this study aims to concentrate on Asian languages. It intends to analyze hyperparameter settings suitable for training on Asian parallel corpora and observe translation performance differences accordingly. Moreover, it aims to identify key hyperparameters that significantly influence translation performance across language pairs and propose effective machine translation training methods tailored to each language. This research aims to enhance the efficiency of machine translation across various language pairs and provide insights into training methods and hyperparameter settings to improve translation quality.
DAT QUY NGUYEN 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사
Electromagnetic interference (EMI) shielding material is the most effective solution to protect electronic devices and human health from the harmful effect of electromagnetic radiation. The study of EMI shielding materials is intensifying in the constantly developing picture of the fourth industrial revolution. A huge demand for compact and multi-functional devices requires the integration of new functions into EMI shielding materials. Multifunctional EMI shielding materials perform multiple functions beyond their main function EMI shielding in a system due to their specific properties. The miniaturization and integration of electronic devices have led to an increased accumulation of heat, which can disrupt normal functioning. Their functionalities are also severely affected when they are exposed to the abundant electromagnetic interference (EMI) resulting from the rapid development of fifth-generation telecommunication technology extended to mmWaves and sixth-generation telecommunication frequencies up to 110 GHz. Therefore, it is urgent to develop composite materials with excellent EMI shielding effectiveness and heat dissipation abilities. Herein, I fabricated an all-in-one thin film composite using carbon nanotubes (CNT), boron nitride (BN), and thermoplastic polyurethane (TPU) through a layer-by-layer casting method to create a composite supported by hydrogen bonding with impressive EMI shielding and heat dissipation properties. The high electrical conductivity of the CNT-BN-TPU composite resulted in the highest EMI shielding effectiveness, ranging from 90.66 dB in Ka-band to 79.8 dB in W-band, at a thickness of 100 µm, with absorption efficiency of 83.07% at 34 GHz and 80.85% at 100 GHz, respectively. The composite demonstrated excellent heat dissipation, thanks to its outstanding out-of-plane thermal conductivity, which reached 1.971 W/mK. I believe that my proposed method for producing an all-in-one composite thin film with excellent EMI shielding and thermal management capabilities could be a useful approach for the next generation of smart electronic devices. 전자파 간섭(EMI) 차폐재는 전자파의 유해한 영향으로부터 전자 기기와 인간의 건강을 보호하는 가장 효과적인 솔루션 중의 하나이다. 끊임없이 발전하는 4차 산업혁명 시대에 EMI 차폐 소재에 대한 연구가 더욱 증가되고 있다. 또한, 소형 다기능 전자기기에 대한 엄청난 수요로 인해 EMI 차폐 재료에 새로운 기능이 추가되는 요구가 높아지고 있다. 다기능 EMI 차폐 재료는 추가된 특별한 기능으로 인해 전자 시스템에서 EMI 차폐재 이상의 다양한 기능성을 부과하는 역할을 하게 된다. 또한, 전자 기기의 소형화 및 집적화로 인해 열 축적이 크게 증가하여 소자나 시스템의 정상적인 기능을 방해할 수 있다. 최근, mmWaves로 확장된 5세대 통신 기술과 최대 110 GHz의 6세대 통신 주파수의 급속한 발전으로 인해 발생하는 풍부한 전자파 간섭(EMI)에 의해 소자나 시스템의 기능이 심각한 오동작 등의 영향을 받고 있다. 따라서 EMI 차폐 효과와 방열 특성이 우수한 복합재료의 개발이 시급한 실정이다. 본 논문은 탄소나노튜브(CNT), 질화붕소(BN), 열가소성 폴리우레탄(TPU)을 층상 캐스팅 방식을 이용하여, 일체형 박막 복합재로 제작하여, 수소결합을 지지하는 복합재를 제작하였으며, 매우 우수한 EMI 차폐 및 열 방출 특성을 갖는 것을 확인하였다. CNT-BN-TPU 복합체의 높은 전기전도도는 복합재 필름 두께 100 μm에서 90.66 dB(Ka 대역), 79.8 dB(W 대역)로 매우 높은 EMI 차폐 효과를 나타냈으며, 흡수 효율은 34 GHz에서83.07%, 100 GHz에서80.85%로 확인되었다. 또한 제작된 복합재는 1.971 W/mK에 달하는 뛰어난 수직 열전도율로 인해 매우 우수한 방열 성능을 보여주었다. 결론적으로 매우 우수한 EMI 차폐 특성 및 열 방출 기능을 갖는 완전 일체형 복합소재 박막을 제작하기 위해서 본 논문에서 기술한 제조 방법이 차세대 스마트 전자 기기에 매우 유용하게 적용될 수 있을 것으로 기대합니다.
Efficient Mobile Traffic Prediction with Federated Learning
이승열 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사
이동통신망은 새로운 융합서비스들의 요구에 맞추어 다양한 기기의 연결을 지원하며 모바일 트래픽이 폭발적으로 증가하고 있다. 이를 관리하기 위해 통신사업자들은 인공지능 기반 알고리즘을 도입하고 있으나, 중앙집중형 학습 방식은 트래픽 로그를 빈번히 중앙서버로 전송해야 하므로 네트워크 용량에 부담을 준다. 이를 개선하기 위해 연합학습과 같은 분산학습 전략의 도입을 고려하지만, 통신망에 적용하기 위해서는 다음의 주요 문제를 해결해야 한다: i) 지역별 데이터 이질성 문제로 인한 예측 성능 저하 문제 ii) 제한된 컴퓨팅 자원으로 인한 학습 연산량 문제 iii) 가중치 교환으로 인한 통신 효율성 문제. 본 논문에서는 이러한 문제들을 해결할 수 있는 두 가지 연합학습 기반의 모바일 트래픽 예측 방법을 제안한다. 첫째, 연합 분할 학습 방법을 통해 지역별 데이터 이질성 문제와 학습 연산량 문제를 해결한다. 둘째, 계층별 개인화 연합학습 방법으로 데이터 이질성과 통신 효율성 문제를 해결한다. 제안한 연합 분할 학습 방법은 중앙서버의 연산 부담을 줄이며, 클라이언트의 제한된 자원으로도 고성능 모델 학습이 가능함을 입증했다. 또한, 제안한 계층별 개인화 연합학습 방법은 각 지역의 특성을 반영하여 모델을 학습시키고 높은 예측 성능을 얻으면서, 통신 비용을 크게 절감할 수 있음을 보였다. 본 연구에서 제안한 방법들은 실제 통신사업자의 데이터셋을 사용한 성능 평가에서 예측 성능, 학습 연산량 감소, 통신 효율성 측면에서 우수한 성능을 보였다. 주요단어: 모바일 트래픽 예측, 개인화 연합 학습, 연합 분할 학습, 계층별 연합 학습, 분산 학습 Mobile communication networks support the connection of various devices to meet the demands of new convergence services, resulting in an explosive increase in mobile traffic. To manage such explosive traffic, telecommunications operators are adopting AI-based algorithms, primarily using centralized learning methods. However, this approach requires frequent transmission of traffic logs to a central server, which burdens network capacity. To address this, decentralized learning strategies such as federated learning have been considered. However, several key issues must be resolved for effective application in mobile networks: i) Degradation in prediction performance due to regional data heterogeneity ii) Computational load due to limited computing resources iii) Communication efficiency issues due to frequent weight exchanges. This thesis proposes two federated learning-based methods to address these issues in mobile traffic prediction. First, the Federated Split Learning method addresses regional data heterogeneity and computational load issues. Second, the Layer-wise Personalized Federated Learning method addresses data heterogeneity and communication efficiency issues. The proposed Federated Split Learning method reduces the computational burden on the central server, enabling high performance model training even with limited client resources. Additionally, the proposed Layer-wise Personalized Federated Learning method trains models by reflecting the characteristics of each region, achieving high prediction performance while significantly reducing communication costs. The proposed methods are evaluated using real datasets from a telecommunications operator, demonstrating superior performance in terms of prediction accuracy, reduced computational load, and improved communication efficiency. Keywords: Mobile traffic prediction, personalized federated learning, layer-wise federated learning, distributed learning
Muhammad Atta ur Rahman 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
상호작용가지치기를통한자율주행환경에서의효율적인궤적예측정확하 고효율적인궤적예측은복잡하고역동적인교통상황에서안전하게주행하 기위한자율주행시스템의핵심역량중하나이다.본학위논문은자율주행 을위한모션예측모델의상황인식능력과계산효율성을향상시키는일반 적인 프레임워크를 제안한다. 논문의 첫 번째 파트에서는 궤적 예측에 차선 중심선만사용하는기존접근방식을넘어,차선경계및도로가장자리와같 은고밀도벡터맵정보를통합하는새로운접근법인 LANet을제안한다.이 디자인은도로장면에대한더욱통합된공간인식을가능하게하며,향상된 맵표현으로인한계산량증가문제를해결하기위해 CAIP라는관련성기반 맵 가지치기 메커니즘을 도입한다. CAIP는 대상 에이전트와 가장 관련 있 는 맵 세그먼트만을 필터링함으로써 효율성을 높인다. 두 번째 파트에서는 DPG-Traj라는 그래프 기반 예측 모델을 제안한다. 이 모델은 방향 기반 근 접 그래프 가지치기(Directional Proximity Graph Pruning)를 통해 에이전트 간 및 에이전트-지도 간 상호작용에서 불필요한 연결을 동적으로 제거하여 모델 복잡도를 줄인다. 이를 통해 모델은 가장 유의미한 동적 및 의미론적 관계에집중할수있게된다.예측정밀도는향상되고계산비용은절감되어, DPG-Traj는 실시간 응용에 더욱 적합하다. Argoverse 2 모션 예측 데이터셋 을활용한대규모실험을통해두접근법의효과성을검증하였다.본논문의 기여는실시간성과맥락인식을모두고려한확장가능한프레임워크를수립 함으로써자율주행시스템의궤적예측분야를한단계진보시킨다. 키워드:자율주행, LANet, DPG-Traj,연결가지치기, Argoverse 2. Accurate and efficient trajectory prediction is one of the fundamental capabilities of autonomous driving systems for navigating safely through difficult and dynamic traffic scenarios. This thesis formulates a general framework enhancing the contextual awareness and computational efficiency of motion prediction models. In the first part of this thesis, we present LANet, a novel approach incorporating dense vector map features, such as lane boundaries and road edges, into trajectory prediction. This design builds upon the conventional reliance on lane centerlines and facilitates more integrated spatial understanding of the road scene. To manage the increased computational overhead of representing more map elements, we propose CAIP, a relevance-based pruning mechanism that filters only the most pertinent map segments to the target agent. In the second part, we present DPG-Traj, a graph-based prediction model that alleviates model complexity through Directional Proximity Graph Pruning. It removes unnecessary connections in agent-to-agent and agent-to-map interactions dynamically so that the model can focus on the most informative dynamic and semantic relationships. With improved forecasting precision and less computation expense, DPG-Traj is better suited for real-time applications. Largescale experiments on the Argoverse 2 motion forecasting dataset validate the effectiveness of both approaches. The combined contributions of this thesis advance the state of the art in motion prediction a step further by establishing a scalable and context-aware framework for real-world autonomous driving systems. Index Terms: Autonomous Driving, LANet, DPG-Traj, Connection pruning, Argoverse 2
오창한 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
종단형 음성 인식 (end-to-end speech recognition) 모델의 발전 은 ASR (Automatic Speech Recognition) 기술의 성능을 비약적으로 향상시켜, 일부 영역에서는 인간의 성능을 초월하는 결과를 보여주었 다. 그러나 여전히 해결해야 할 여러 과제가 존재한다. Transformer 기반 AED (Attention-based Encoder-Decoder) 구 조는 음성의 발화 길이가 약 30초 이상인 경우 성능이 급격히 저하된 다. 이에 긴 발화에서도 모델의 성능이 강건할 수 있게 하는 연구들 이 제안되어 왔지만, 주로 모델의 손실 함수를 재정의하거나 파인튜 닝을 하는 등 제안된 방법을 수행하기 위해 재학습이 필요하다는 단 점이 있다. 음성 정보에 의존하는 ASR 기술은 실세계에 존재하는 수많은 종 류의 소음에 취약하다는 문제가 있다. 이에 따라 오디오 (Audio)와 소음의 영향이 적은 비주얼 (Visual)의 특징을 모두 활용하는 AVSR (Audio-Visual Speech Recognition) 기술이 등장하여, 소음이 있는 환경에서도 강건한 음성인식 성능을 보여주는 연구가 다수 제안되었 다. LRS3와 VoxCeleb2 데이터셋으로 학습된 AV-HuBERT는 두 모 달리티의 특징을 결합해 주목할만한 성능을 보여주었다. 그러나, 이렇 게 공개된 데이터셋들은 영어 위주이며 한국어 데이터로 학습된 모델 은 극소수에 불과하다. 본 연구에서는 긴 발화에서 AED 기반 음성인식 모델의 성능 저 하의 원인이 cross-attention 정렬 오류임을 찾아내고, gaussian masking을 통해 디코더의 각 time-step마다 적절한 위치에 집중할 수 있도록 cross-attention 가중치 분포를 조정하는 방식으로 해결한 다. 디코딩 시에 적절한 위치를 찾기 위해 CTC (Connectionist Temporal Classification)의 전방 확률 (forward probability)이 최대 가 되는 위치 값을 활용한다. 그 결과, 재학습 없이도 LibriSpeech 데 이터셋에서 25초 이상의 단어 오류율 (Word Error Rate)을 모두 개 선하며, 오류 감소율 (Error Reduction Rate)을 91.10% (33.48% vs 2.98%)까지 개선한다. 다음으로, 한국어 오디오-비주얼 데이터셋과 모델을 구축한다. 유 튜브에서 Creative Commons License (CCL)에 해당하는 한국어 영 상만을 추출하여 엄격한 전처리 과정을 거친다. 구축한 데이터셋으로 AV-HuBERT 모델을 사전학습과 파인튜닝한다. 오디오 정보만 사용 했을 때는 단어 오류율 17.78%를 달성하는 반면, 오디오 정보와 비주 얼 정보를 모두 사용했을 때는 단어 오류율 14.93%를 달성한다. 이러 한 결과는 비주얼 정보가 음성인식 성능 향상에 도움을 주며, 구축한 한국어 AVSR 데이터가 AVSR에 효과적임을 시사한다. 주요단어(Keyword) : AV-HuBERT, AVSR, Cross-attention, Hybrid CTC/Attention, Long-form speech. Recent advancements in end-to-end (E2E) speech recognition have led to remarkable improvements in ASR (Automatic Speech Recognition) performance, even surpassing human-level accuracy in certain domains. Nevertheless, various challenges remain. In particular, Transformer-based AED (Attention-based Encoder-Decoder) architectures exhibit a pronounced decline in performance when the length of the spoken utterance exceeds approximately 30 seconds. Although several studies have proposed methods to enhance robustness for such long utterances, the majority of these approaches—such as redefining the loss function or performing model fine-tuning—require retraining, which represents a notable drawback. ASR technology, which relies predominantly on acoustic information, faces significant challenges due to the wide variety of noise present in real-world environments. In response, Audio-Visual Speech Recognition (AVSR) techniques have been introduced, integrating audio features— which tend to degrade in the presence of noise—and visual features— which are relatively less affected by noise—to achieve robust recognition performance in noisy environments. Notably, AV-HuBERT, trained on the LRS3 and VoxCeleb2 datasets, has demonstrated impressive performance by combining features from both modalities. However, these publicly available datasets are predominantly English-based, and only a small number of models trained on Korean data currently exist. In this study, we identify cross-attention misalignment as the main cause of performance degradation in AED-based speech recognition models for long utterances. To address this issue, we employ Gaussian masking to adjust the cross-attention weight distribution, ensuring that the decoder focuses on the appropriate positions at each time step. During decoding, we leverage the position at which the forward probability of Connectionist Temporal Classification (CTC) is maximized to locate the optimal alignment. As a result, our method improves the word error rate (WER) for utterances exceeding 25 seconds in the LibriSpeech dataset without requiring retraining, achieving up to a 91.10% error reduction rate (from 33.48% to 2.98%). Next, we construct a Korean audio-visual dataset and train a corresponding model. By extracting only Korean-language videos under the Creative Commons License (CCL) from YouTube and applying rigorous preprocessing, we establish the dataset for AV-HuBERT pre-training and fine-tuning. When using only audio information, the model achieves a word error rate (WER) of 17.78%, whereas incorporating both audio and visual information lowers the WER to 14.93%. These results suggest that visual information contributes to enhanced speech recognition performance and that the constructed Korean AVSR dataset effectively supports AVSR. Key words : AV-HuBERT, AVSR, Cross-attention, Hybrid CTC/Attention, Long-form speech.
저궤도 위성통신 시스템의 상향 링크 주파수 동기 선보상
선여진 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
저궤도 위성을 기반으로 하는 비지상 네트워크 (Non-Terrestrial Networks, NTN) 는 지상 인프라의 통신망으로는 서비스 제공이 제한되는 지역에서도 통신 서비스를 제공할 수 있어 6세대 이동통신 (6G) 의 핵심 기술로 주목받고 있다. 그러나 이러한 환경에서는 위성의 고속 이동으로 인해 큰 도플러 편이 (Doppler shift) 가 발생하게 되며, 사용자 단말은 네트워크로부터 제공받은 궤도 정보를 기반으로 상향 링크 송신 시 도플러 편이를 선보상 (pre-compensation) 할 필요가 있다. 3rd Generation Partnership Project (3GPP) Release 17에서는 이를 지원하기 위해 양자화된 위성 궤도 정보를 System Information Block Type 19 (SIB19) 메시지를 통해 단말에 제공하는 구조를 채택하고 있다. 그러나 표현 비트 수의 한계와 초기 오차로 인해 궤도 정밀도가 저하될 경우, 이러한 오차는 도플러 보정 성능 저하로 이어질 수 있다. 위성 통신 환경에서 도플러 편이는 신호의 주파수를 변화시켜 링크 품질을 저하시킬 수 있으며, 이를 보정하지 않을 경우 안정적인 통신 서비스 제공이 어렵다. 본 논문은 이러한 문제의식에 기반하여, SIB19 포맷이 제공하는 궤도 정보의 도플러 보정 정확도를 실증적으로 분석하는 것을 목표로 한다. 이를 위해 공공 데이터인 Two-Line Element Set (TLE) 을 참값으로 정의하고, 동일한 궤도 요소를 SIB19 구조로 양자화한 후 오차 특성을 비교하였다. 특히, 궤도 예측 및 보정 과정을 반영한 시뮬레이션 환경을 직접 구현하여, 양자화로 인한 오차뿐만 아니라 초기 위치 및 속도 오차에 따른 누적 예측 오차의 영향을 정량적으로 평가하였다. 또한, 실제 위성-단말 간 링크 연결 구간에서 계산된 도플러 편이를 기준으로 SIB19 기반 보정값과 TLE 기반 이상적 보정값 간의 차이를 분석하였으며, SIB19 메시지의 갱신 주기 (10초~10분)에 따른 보정 정확도의 변화를 관찰하였다. 이와 같은 절차를 통해 현실적인 궤도 정보 운용 조건에서 SIB19 메시지가 제공할 수 있는 도플러 편이 보정 성능을 평가하였으며, 향후 NTN 시스템 설계 시 궤도 정보의 표현 방식 및 갱신 주기 설정에 대한 기술적 기준을 제시하였다.
A Study on Systematic Performance Metrics and Encoding Schemes for Wireless Covert Channels
성하영 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사
은닉 채널은 내부자가 네트워크 외부의 수신자에게 정상적인 통신 방법을 사용하지 않고 데이터를 유출하기 위한 통신 기법으로 숨겨진 통신 채널을 의미한다. 이는 데이터 유출의 방법으로써 악용될 수 있는데, 허가된 통신에서 일반적인 통신 방법이 아닌 네트워크 안에 새로운 통신 채널을 만들어 데이터를 유출하는 기생하는 채널을 통한 데이터 유출 공격 방법으로 활용된다. 악의적으로 사용 시 중요한 데이터를 약속 된 송수신자 이외에는 모르게 유출 시키는 것이 가능하다. 반대로 일반적인 사용자 입장에서는 민간함 정보를 보낼 때, 다른 사람들은 전송 자체를 알 수 없는 보안성을 가진 채널로도 사용될 수 있다. 결국, 사용자의 목적에 따라 악의적인 데이터 유출 채널 혹은 보안성을 가진 채널로 사용될 수 있다. 은닉 채널은 환경에 영향을 받지 않고 어떠한 환경에서도 통신 채널을 만들 수 있다는 장점을 가지고 있다. 즉, 송수신자 사이에 약속된 송수신 방법이 고도화 될수록 은닉성, 데이터 전송 속도 등이 좋아질 수 있다. 그러나 각 은닉 채널마다 사용하는 통신 방법이 다르고 매체가 다름으로 인하여 은닉 채널의 성능 분석을 위해 사용하는 성능 지표가 상이하다. 이로 인하여 은닉 채널 사이의 상대적인 성능 분석이 쉽지 않고 객관적인 수치를 이용한 비교도 어렵다. 본 논문에서는 은닉채널마다 서로 다른 성능 지표를 사용하여 객관적인 평가가 어렵다는 문제점을 보완하기 위하여 은닉 채널에 대해 성능을 다각도로 확인 할 수 있도록 은닉성, 안정성, 투명성, 기밀성, 전송속도에 해당하는 총 다섯가지의 체계적인 성능지표를 제안하고 있다. 여기서 성능 지표를 정리한다는 의미는 성능 분석을 위한 디테일한 방법이나 새로운 성능 지표 방법에 대한 제안 보다는 다양한 관점에서 성능 분석 영역들을 제시함으로 하나의 채널로써 제안되는 은닉 채널의 특징 및 장점을 종합적으로 나타낼 수 있음을 의미한다. 비슷한 환경에서의 은닉 채널에 대해 상대적인 평가가 가능한 성능 다이어그램을 새롭게 제안하고 있고 이를 통해 해당 은닉 채널이 가진 특징을 한눈에 확인 할 수 있도록 하고 있다. 또한, 정리된 성능지표와 관련하여 이를 만족하는 새로운 인코딩 기법을 제안하고 있다. 제안하는 새로운 인코딩 기법들은 Wi-Fi의 주기적 신호를 활용한 은닉 타이밍 채널을 구현하는 데 사용되었고, LTE-A 특정 패킷을 이용한 은닉 스토리지 채널을 위해 제안되었다. 첫째로, 우리는 은닉 채널에 대한 성능 지표를 체계적으로 구성하여 은닉성을 포함한 통신 성능 및 일반 사용자 관점 어우르는 성능 지표 다이어그램을 제안하고 있다. 둘째로, 우리는 IEEE 802.11 환경에서 새로운 인코딩 기법을 적용한 은닉 무선 단방향 통신 메커니즘을 제안하였다. 우리의 은닉 통신은 모든 상업용 AP의 비콘 패킷을 활용할 수 있는 은닉 타이밍 채널을 기반하고 있다. 우리가 제안한 무선 은닉 채널은 WLAN MAC 프로토콜의 펌웨어 수정만으로 구현할 수 있어 실제 AP에 적용이 가능하다. 또한, 다른 사람들에 의해 은닉 신호가 감지될 가능성을 크게 줄이기 위해 PPCTC (ping-pong covert timing channel)라는 새로운 간단한 은닉 데이터 인코딩 체계를 제안하였으며, PPCTC의 은밀성은 이전의 타이밍 기반 은닉 채널과 비교하여 위의 성능지표를 모두 만족하는 것을 보인다. 제안하는 무선 은닉 통신은 단방향 통신이지만, PPCTC는 연속 2비트 오류에 대한 복구 특성이 있어 안정적인 통신이 보장된다. 뿐만 아니라, 우리의 은닉 채널을 통해 전송되는 정보의 기밀성과 무결성을 제공하기 위한 은닉 프레임 구조도 제시되었는데, 이것은 은닉채널 연구에서 처음 시도되는 방법이다. 셋째로, 우리는 LTE-A (Long-Term Evolution-Advanced) 환경에서 시퀀스 번호의 복제를 사용하는 은닉 채널을 제안하였다. 우리는 숨겨진 데이터의 안전한 전송을 달성하면서 실제 통신과 유사한 프로세스를 제공하는 것을 목표로 하고 있습니다. 또한, 제안된 은닉 채널의 성능을 평가하기 위해 상용 무선 통신 장비를 사용한 무선 송수신 체계와 기밀성을 지원하는 전송 체계를 제공하고 실험 결과를 제시하고 있다 주요단어: 성능지표, 성능 다이어그램, 은닉채널, 은닉 AP, 모바일 은닉 채널, 은닉 프레임 A Covert channel refers to a communication technique used by insiders to leak data to external receivers without employing normal communication methods. This can be exploited as a method of data leakage, creating a hidden communication channel within the network by establishing a new communication channel not used in authorized communications. When maliciously used, this method allows for the leakage of critical data without the knowledge of anyone other than the agreed-upon sender and receiver. Conversely, from the perspective of regular users sending sensitive information, it can be utilized as a secure channel where others cannot discern the transmission itself. Ultimately, its usage can be directed either maliciously as a data leakage channel or positively as a secure channel, depending on the user's intentions. Covert channels offer the advantage of creating communication pathways unaffected by the environment, usable in various settings. Essentially, as the agreed-upon transmission methods between sender and receiver become more sophisticated, the covert channel's characteristics, such as covertness and throughput, can improve. However, the diverse communication methods employed by each covert channel, coupled with different media, make it challenging to use consistent performance metrics for their analysis. This complexity hinders straightforward relative performance evaluation between covert channels and complicates objective comparisons using numerical metrics. To address the difficulty of objectively evaluating covert channels with different performance metrics, this paper proposes a systematic set of five performance metrics: covertness, stability, transparency, confidentiality, and throughput. These metrics aim to provide a comprehensive view of covert channel performance from various perspectives. Rather than introducing new detailed methods or metrics, the goal is to present a range of performance analysis areas for the proposed covert channel as a whole. Additionally, a performance diagram is suggested, allowing for relative evaluations of covert channels in similar environments and providing a quick overview of the characteristics of the proposed covert channel. In the IEEE 802.11 environment, a new encoding technique for covert wireless unidirectional communication mechanisms is proposed. The covert communication is based on a covert timing channel that can utilize beacon packets from all commercial APs. Our proposed wireless covert channel is suitable for real public AP environments as it can be implemented with firmware modifications to WLAN MAC protocols. To significantly reduce the likelihood of detection by others, we propose a new simple covert data encoding system called PPCTC (ping-pong covert timing channel). The covertness of PPCTC satisfies all the above performance metrics compared to previous timing-based covert channels. While our wireless covert communication is unidirectional, PPCTC has a recovery feature for consecutive 2-bit errors, ensuring stable communication. Furthermore, we present a covert frame structure to provide confidentiality and integrity for the information transmitted through our covert channel, marking a novel attempt in covert channel research. In the LTE-A (Long-Term Evolution-Advanced) environment, we propose a practical covert channel using sequence number duplication. Our goal is to achieve secure transmission of covert data while providing a process similar to actual communication. Moreover, we provide a wireless transmission system using commercial wireless communication equipment for evaluating the performance of the proposed covert channel and present experimental results supporting confidentiality.
이동찬 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
온디바이스 인공지능(On-Device AI)의 발전과 함께, 딥러닝 모 델을 마이크로컨트롤러(MCU)에 직접 탑재하여 저지연, 저전력, 네 트워크 독립적인 지능형 시스템을 구현하려는 수요가 증가하고 있 다. 그러나 MCU는 메모리와 연산 자원이 매우 제한적이기 때문에, 복잡한 시각 인식 과제를 실시간으로 실행하는 데에는 여전히 큰 도전이 존재한다. 본 연구는 STM32H747 듀얼코어 MCU를 기반으 로, 최적화 및 양자화된 경량 신경망 모델을 활용하여 이미지 분류 와 세그먼테이션을 MCU 환경에서 실시간으로 실행 가능한지를 탐 구하였다. 먼저 STM32H747 환경에서 MicroNet, MobileNetV2, FD-MobileNet, SqueezeNet1.1 등 대표적인 경량 분류 모델을 Cortex-M4 코어가 전처리를, Cortex-M7 코어가 추론을 수행하는 듀얼코어 구조를 활용함으로써, M7 코어에서의 추론을 병렬적으로 실행하는 구조를 설계하였다. 이를 통해 단일코어 대비 최대 30% 이상의 지연 시간을 줄였고, 평균 약 15fps 수준의 안정적인 실시간 응답 속도를 확보하였다. 이후, 더 복잡한 과제인 이미지 세그먼테이션 모델을 MCU에 적 용하기 위해 스킵 연결(skip connection) 제거, 출력 해상도 축소 (32×32), INT8/INT16 양자화 등을 적용한 경량 구조를 설계하였다. 해당 모델은 전체 파라미터 수 약 1MB 이내로 제한되어 STM32H747의 내부 SRAM에 완전히 적재할 수 있으며, 다양한 이 미지 전처리 방법이나 FreeRTOS 기반 구조와의 비교, 모델 구조 분석 실험을 통해 MCU 내에서 실제적으로 적용하기 위한 방법을 탐구하였다. 또한, 세그먼테이션 결과를 기반으로 실용적으로 사용할 수 있는 서보모터를 제어하는 카메라 기반 실시간 객체 추적 시스템을 구현 함으로써, 입력, 추론, 제어 전체 파이프라인을 MCU 내부에서 완결 하는 구조를 실현하였다. 아울러, 모델을 M4/M7 코어에 분산하여 병렬 추론을 수행하는 구조를 실험적으로 검증하였으며, 지연 시간 추가 개선의 가능성도 확인하였다. 본 연구는 제한된 임베디드 하드웨어 환경에서도 실시간 비전 AI 시스템을 구현할 수 있는 실용적 경로를 제시하며, 모델 설계, 시스템 구조, 자원 최적화 전략 측면의 온센서 AI를 제안한다. Keywords : MCU, AI, TensorFlow lite micro, embedded system With the rapid progress of on-device AI, there is growing demand to embed deep-learning models directly in microcontrollers(MCUs) to deliver low-latency, low-power, and network-independent intelligence. Yet real-time execution of complex visual-recognition tasks on MCUs remains challenging because of their severely limited memory and compute resources. This study investigates whether real-time image classification and segmentation can be achieved on an STM32H747 dual-core MCU by deploying optimized and quantized lightweight neural networks. First, we implemented a dual-core architecture in which representative lightweight classifiers—MicroNet, MobileNetV2, FD-MobileNet, and SqueezeNet 1.1—run on the STM32H747. The Cortex-M4 core handles preprocessing while the Cortex-M7 core performs inference; multiple inferences on the M7 core are executed in parallel. This partitioning cuts latency by more than 30% compared with a single-core setup and delivers a stable real-time throughput of roughly 15 fps. Next, to apply the image segmentation model, a more complex task, to the MCU, we designed a lightweight structure with skip connections removed, output resolution reduced (32×32), and INT8/INT16 quantization. By capping the parameter count below 1 MB, the entire model fits in the STM32H747’s internal SRAM. Feasibility was validated through experiments on various image-preprocessing pipelines, comparisons with FreeRTOS-based implementations, and detailed ablation studies. We then built a camera-based real-time object-tracking system that drives a servomotor directly from the segmentation output, completing the full pipeline—image capture, inference, and control—entirely inside the MCU. Additional experiments that distribute the model across the M4 and M7 cores further reduced latency, confirming the benefits of parallel inference. Overall, this work demonstrates a practical path to real-time vision AI on resource-constrained embedded hardware and offers concrete insights into model design, system architecture, and resource-optimization strategies for on-device AI. Keywords : MCU,AI, TensorFlow lite micro, embedded system