
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
디지털 기술 수용의 결정요인에 관한 연구 : 공간컴퓨팅 사례를 통한 소비자의 혁신성과 기대-인식 적합성의 조절 및 매개효과를 중심으로
김헌진 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
공간컴퓨팅 기술은 몰입적 상호작용과 초실감형 콘텐츠를 통해 기존 디지털 환경을 혁신할 차세대 기술로 주목받고 있다. 그러나 제품의 상용화에도 불구하고 시장 반응은 기대에 미치지 못하고 있으며, 소비자 수용 역시 저조한 수준에 머물고 있다. 이러한 현상을 설명하고자 다양한 기술수용 연구들이 시도되어 왔으나, 대부분은 수용 결정요인과 수용의도 간의 선형적 인과관계에 중점을 두었으며, 개인의 특성과 기술에 대한 기대와 인식 간 상호작용은 상대적으로 간과되어 왔다. 본 논문은 이러한 한계를 보완하기 위해, 확장된 통합기술수용이론(UTAUT2)에 기대-인식 적합성 개념을 접목한 통합모형을 제시하였다. 구체적으로, 소비자 혁신성을 독립변수로, 수용 결정요인(성과기대, 노력기대, 사회적 영향, 유희적 동기)을 매개변수로, 기대-인식 적합성(실감성, 상호작용성, 활용성)을 조절변수로 설정하여, 수용의도에 이르는 조절된 매개효과 구조를 설계하였다. 일반인 1,000명을 대상으로 실시한 온라인 설문조사 데이터를 바탕으로 부분최소자승 구조방정식모형(PLS-SEM)을 활용한 분석 결과, 첫째, 소비자 혁신성은 모든 수용 결정요인과 수용의도에 유의한 영향을 미쳤으며, 각 수용 결정요인 또한 수용의도에 긍정적 영향을 미치는 것으로 나타났다. 둘째, 노력기대, 사회적 영향, 유희적 동기는 소비자 혁신성과 수용의도 간 관계에서 유의한 매개효과를 형성하였다. 셋째, 기대-인식 적합성 중에서 실감성 요인은 유희적 동기 경로에서 유의한 조절된 매개효과를 보여주었으며, 이는 실감성에 대한 소비자의 기대와 인식 간 적합성이 수용의도에 영향을 줄 수 있음을 시사한다. 이러한 결과는 기술수용이 단선적인 경로가 아닌, 개인의 성향과 기술에 대한 기대-인식 적합성 간 상호작용을 포함하는 다층적 인과구조에 의해 형성된다는 점을 실증적으로 입증하였다. 이론적으로는 기존 기술수용 이론의 설명력을 확장하고, 기대-인식 적합성 개념을 구조모형에 통합함으로써 모형의 확장 가능성을 제시하였다. 실무적으로는 유희적 동기와 사회적 영향력을 활용한 초기 수용 전략이 효과적일 수 있으며, 실감형 기술의 구현과 함께 소비자의 기대와 인식 간 간극을 줄이는 접근도 수용의도 제고에 중요한 역할을 할 수 있다. Spatial computing is gaining attention as a next-generation innovation that transforms the existing digital environment through immersive interactions and hyper-realistic content. Despite the commercial availability of such technologies, market responses have fallen short of expectations, and consumer acceptance remains limited. To explain this phenomenon, various studies on technology acceptance have been conducted; however, most have primarily focused on simple causal relationships between acceptance determinants and behavioral intention. Consequently, both individual characteristics and the fit between expectation and perception of technological attributes have been relatively overlooked. To address this limitation, we propose an integrated model that incorporates the concept of expectation–perception fit into the extended Unified Theory of Acceptance and Use of Technology (UTAUT2). Specifically, consumer innovativeness is positioned as the independent variable; acceptance determinants (performance expectancy, effort expectancy, social influence, and hedonic motivation) serve as mediating variables; and expectation-perception fit (immersiveness, interactivity, and applicability) is introduced as a set of moderating variables. This framework establishes a moderated mediation structure to explain behavioral intention in the context of spatial computing technologies. Based on an online survey of 1,000 respondents, we conducted a partial least squares structural equation modeling (PLS-SEM) analysis and found the following results. First, consumer innovativeness significantly influenced all acceptance determinants and behavioral intention, and each determinant also positively affected behavioral intention. Second, effort expectancy, social influence, and hedonic motivation mediated the relationship between consumer innovativeness and behavioral intention. Third, among the dimensions of expectation-perception fit, immersiveness exhibited a significant moderated mediation effect in the hedonic motivation pathway, suggesting that fit between the expected and perceived immersiveness may influence behavioral intention. These results empirically demonstrate that technology acceptance is not a simple causal process, but rather emerges from a multi-dimensional causal structure involving the interaction between personal characteristics and the expectation–perception fit of the technology. Theoretically, we extend the explanatory scope of existing technology acceptance models by integrating the fit concept into the structural framework. The findings suggest that strategies emphasizing hedonic motivation and social influence could facilitate early acceptance of spatial computing technologies. Enhancing the fit between expectations and perceptions may constitute a mechanism that strengthens behavioral intention.
김선희 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사
기계 번역은 인공지능 기술을 활용하여 특정 언어를 다른 언어로 변환하는 기술을 의미한다. 초기의 기계 번역 기술은 규칙 기반 및 통계 기반 접근 방식을 사용하였으나, 최근 10년 동안에는 신경망 기계 번역(Neural Machine Translation, NMT)이 주로 사용되고 있다. NMT는 단어를 매칭하여 번역하는 기술을 넘어 문맥을 이해하고 이를 반영하여 번역 결과를 생성함으로써 번역 품질을 크게 향상시켰다. 특히, transformer 모델은 이전의 순환신경망 기술 보다 높은 성능을 달성하였으며 번역 뿐만 아니라 다양한 분야에서 사용되고 있다. 본 논문에서는 transformer 기술이 적용된 NMT를 사용하여 데이터 및 언어별 특성에 적합한 모델 학습 방법을 탐구하고자 한다. 또한, 하이퍼파라미터가 언어별 번역 성능에 미치는영향을 정량적 수치로 분석하고자 한다. 일반적으로 NMT는 문어체 데이터를 사용하여 모델을 학습한다. 그러나 본 연구에서는 대화체 데이터를 활용하여 번역 모델을 개발하고, 대화체 데이터와 문어체 데이터의 차이점을 분석하여 대화 상황에 적합한 번역 모델을 제안한다. 더불어, 기계 번역 분야가 주로 로마자 기반 언어로 연구되던 것에서 벗어나, 아시아 언어에 집중하여 아시아 병렬 코퍼스 학습에 적합한 하이퍼파라미터 설정 값을 분석하고 그에 따른 번역 성능의 차이를 관찰하고자 한다. 또한, 언어 쌍에 따라 번역 성능에 주요 영향을 미치는 하이퍼파라미터가 무엇인지, 언어별 효과적인 기계 번역 학습법을 제안하고자 한다. 이 연구는 다양한 언어 쌍에 대한 기계 번역의 효율성을 증대시키고 번역 품질을 개선하기 위한 학습 방법과 하이퍼파라미터 설정에 대한 통찰을 제공하고자 한다. Machine translation refers to the technology that uses artificial intelligence to translate one language into another. Early machine translation technologies used rule-based and statistical approaches, but over the past decade, Neural Machine Translation (NMT) has predominantly been used. NMT goes beyond word-to-word translation by understanding context and incorporating it into translation results, significantly enhancing translation quality. In particular, the transformer model has achieved higher performance compared to earlier recurrent neural network technologies and is being used not only in translation but also in various fields. This paper aims to explore methods for training models suitable for data and language-specific characteristics using NMT with transformer technology. Additionally, it seeks to analyze the quantitative impact of hyperparameters on translation performance across different languages. Typically, NMT trains models using written text data. However, this study aims to develop translation models using conversational data, analyzing the differences between conversational and written text data to propose a translation model suitable for conversational situations. Furthermore, departing from the predominant research focus on Roman-script languages, this study aims to concentrate on Asian languages. It intends to analyze hyperparameter settings suitable for training on Asian parallel corpora and observe translation performance differences accordingly. Moreover, it aims to identify key hyperparameters that significantly influence translation performance across language pairs and propose effective machine translation training methods tailored to each language. This research aims to enhance the efficiency of machine translation across various language pairs and provide insights into training methods and hyperparameter settings to improve translation quality.
DAT QUY NGUYEN 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사
Electromagnetic interference (EMI) shielding material is the most effective solution to protect electronic devices and human health from the harmful effect of electromagnetic radiation. The study of EMI shielding materials is intensifying in the constantly developing picture of the fourth industrial revolution. A huge demand for compact and multi-functional devices requires the integration of new functions into EMI shielding materials. Multifunctional EMI shielding materials perform multiple functions beyond their main function EMI shielding in a system due to their specific properties. The miniaturization and integration of electronic devices have led to an increased accumulation of heat, which can disrupt normal functioning. Their functionalities are also severely affected when they are exposed to the abundant electromagnetic interference (EMI) resulting from the rapid development of fifth-generation telecommunication technology extended to mmWaves and sixth-generation telecommunication frequencies up to 110 GHz. Therefore, it is urgent to develop composite materials with excellent EMI shielding effectiveness and heat dissipation abilities. Herein, I fabricated an all-in-one thin film composite using carbon nanotubes (CNT), boron nitride (BN), and thermoplastic polyurethane (TPU) through a layer-by-layer casting method to create a composite supported by hydrogen bonding with impressive EMI shielding and heat dissipation properties. The high electrical conductivity of the CNT-BN-TPU composite resulted in the highest EMI shielding effectiveness, ranging from 90.66 dB in Ka-band to 79.8 dB in W-band, at a thickness of 100 µm, with absorption efficiency of 83.07% at 34 GHz and 80.85% at 100 GHz, respectively. The composite demonstrated excellent heat dissipation, thanks to its outstanding out-of-plane thermal conductivity, which reached 1.971 W/mK. I believe that my proposed method for producing an all-in-one composite thin film with excellent EMI shielding and thermal management capabilities could be a useful approach for the next generation of smart electronic devices. 전자파 간섭(EMI) 차폐재는 전자파의 유해한 영향으로부터 전자 기기와 인간의 건강을 보호하는 가장 효과적인 솔루션 중의 하나이다. 끊임없이 발전하는 4차 산업혁명 시대에 EMI 차폐 소재에 대한 연구가 더욱 증가되고 있다. 또한, 소형 다기능 전자기기에 대한 엄청난 수요로 인해 EMI 차폐 재료에 새로운 기능이 추가되는 요구가 높아지고 있다. 다기능 EMI 차폐 재료는 추가된 특별한 기능으로 인해 전자 시스템에서 EMI 차폐재 이상의 다양한 기능성을 부과하는 역할을 하게 된다. 또한, 전자 기기의 소형화 및 집적화로 인해 열 축적이 크게 증가하여 소자나 시스템의 정상적인 기능을 방해할 수 있다. 최근, mmWaves로 확장된 5세대 통신 기술과 최대 110 GHz의 6세대 통신 주파수의 급속한 발전으로 인해 발생하는 풍부한 전자파 간섭(EMI)에 의해 소자나 시스템의 기능이 심각한 오동작 등의 영향을 받고 있다. 따라서 EMI 차폐 효과와 방열 특성이 우수한 복합재료의 개발이 시급한 실정이다. 본 논문은 탄소나노튜브(CNT), 질화붕소(BN), 열가소성 폴리우레탄(TPU)을 층상 캐스팅 방식을 이용하여, 일체형 박막 복합재로 제작하여, 수소결합을 지지하는 복합재를 제작하였으며, 매우 우수한 EMI 차폐 및 열 방출 특성을 갖는 것을 확인하였다. CNT-BN-TPU 복합체의 높은 전기전도도는 복합재 필름 두께 100 μm에서 90.66 dB(Ka 대역), 79.8 dB(W 대역)로 매우 높은 EMI 차폐 효과를 나타냈으며, 흡수 효율은 34 GHz에서83.07%, 100 GHz에서80.85%로 확인되었다. 또한 제작된 복합재는 1.971 W/mK에 달하는 뛰어난 수직 열전도율로 인해 매우 우수한 방열 성능을 보여주었다. 결론적으로 매우 우수한 EMI 차폐 특성 및 열 방출 기능을 갖는 완전 일체형 복합소재 박막을 제작하기 위해서 본 논문에서 기술한 제조 방법이 차세대 스마트 전자 기기에 매우 유용하게 적용될 수 있을 것으로 기대합니다.
Muhammad Atta ur Rahman 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
상호작용가지치기를통한자율주행환경에서의효율적인궤적예측정확하 고효율적인궤적예측은복잡하고역동적인교통상황에서안전하게주행하 기위한자율주행시스템의핵심역량중하나이다.본학위논문은자율주행 을위한모션예측모델의상황인식능력과계산효율성을향상시키는일반 적인 프레임워크를 제안한다. 논문의 첫 번째 파트에서는 궤적 예측에 차선 중심선만사용하는기존접근방식을넘어,차선경계및도로가장자리와같 은고밀도벡터맵정보를통합하는새로운접근법인 LANet을제안한다.이 디자인은도로장면에대한더욱통합된공간인식을가능하게하며,향상된 맵표현으로인한계산량증가문제를해결하기위해 CAIP라는관련성기반 맵 가지치기 메커니즘을 도입한다. CAIP는 대상 에이전트와 가장 관련 있 는 맵 세그먼트만을 필터링함으로써 효율성을 높인다. 두 번째 파트에서는 DPG-Traj라는 그래프 기반 예측 모델을 제안한다. 이 모델은 방향 기반 근 접 그래프 가지치기(Directional Proximity Graph Pruning)를 통해 에이전트 간 및 에이전트-지도 간 상호작용에서 불필요한 연결을 동적으로 제거하여 모델 복잡도를 줄인다. 이를 통해 모델은 가장 유의미한 동적 및 의미론적 관계에집중할수있게된다.예측정밀도는향상되고계산비용은절감되어, DPG-Traj는 실시간 응용에 더욱 적합하다. Argoverse 2 모션 예측 데이터셋 을활용한대규모실험을통해두접근법의효과성을검증하였다.본논문의 기여는실시간성과맥락인식을모두고려한확장가능한프레임워크를수립 함으로써자율주행시스템의궤적예측분야를한단계진보시킨다. 키워드:자율주행, LANet, DPG-Traj,연결가지치기, Argoverse 2. Accurate and efficient trajectory prediction is one of the fundamental capabilities of autonomous driving systems for navigating safely through difficult and dynamic traffic scenarios. This thesis formulates a general framework enhancing the contextual awareness and computational efficiency of motion prediction models. In the first part of this thesis, we present LANet, a novel approach incorporating dense vector map features, such as lane boundaries and road edges, into trajectory prediction. This design builds upon the conventional reliance on lane centerlines and facilitates more integrated spatial understanding of the road scene. To manage the increased computational overhead of representing more map elements, we propose CAIP, a relevance-based pruning mechanism that filters only the most pertinent map segments to the target agent. In the second part, we present DPG-Traj, a graph-based prediction model that alleviates model complexity through Directional Proximity Graph Pruning. It removes unnecessary connections in agent-to-agent and agent-to-map interactions dynamically so that the model can focus on the most informative dynamic and semantic relationships. With improved forecasting precision and less computation expense, DPG-Traj is better suited for real-time applications. Largescale experiments on the Argoverse 2 motion forecasting dataset validate the effectiveness of both approaches. The combined contributions of this thesis advance the state of the art in motion prediction a step further by establishing a scalable and context-aware framework for real-world autonomous driving systems. Index Terms: Autonomous Driving, LANet, DPG-Traj, Connection pruning, Argoverse 2
Efficient Mobile Traffic Prediction with Federated Learning
이승열 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내박사
이동통신망은 새로운 융합서비스들의 요구에 맞추어 다양한 기기의 연결을 지원하며 모바일 트래픽이 폭발적으로 증가하고 있다. 이를 관리하기 위해 통신사업자들은 인공지능 기반 알고리즘을 도입하고 있으나, 중앙집중형 학습 방식은 트래픽 로그를 빈번히 중앙서버로 전송해야 하므로 네트워크 용량에 부담을 준다. 이를 개선하기 위해 연합학습과 같은 분산학습 전략의 도입을 고려하지만, 통신망에 적용하기 위해서는 다음의 주요 문제를 해결해야 한다: i) 지역별 데이터 이질성 문제로 인한 예측 성능 저하 문제 ii) 제한된 컴퓨팅 자원으로 인한 학습 연산량 문제 iii) 가중치 교환으로 인한 통신 효율성 문제. 본 논문에서는 이러한 문제들을 해결할 수 있는 두 가지 연합학습 기반의 모바일 트래픽 예측 방법을 제안한다. 첫째, 연합 분할 학습 방법을 통해 지역별 데이터 이질성 문제와 학습 연산량 문제를 해결한다. 둘째, 계층별 개인화 연합학습 방법으로 데이터 이질성과 통신 효율성 문제를 해결한다. 제안한 연합 분할 학습 방법은 중앙서버의 연산 부담을 줄이며, 클라이언트의 제한된 자원으로도 고성능 모델 학습이 가능함을 입증했다. 또한, 제안한 계층별 개인화 연합학습 방법은 각 지역의 특성을 반영하여 모델을 학습시키고 높은 예측 성능을 얻으면서, 통신 비용을 크게 절감할 수 있음을 보였다. 본 연구에서 제안한 방법들은 실제 통신사업자의 데이터셋을 사용한 성능 평가에서 예측 성능, 학습 연산량 감소, 통신 효율성 측면에서 우수한 성능을 보였다. 주요단어: 모바일 트래픽 예측, 개인화 연합 학습, 연합 분할 학습, 계층별 연합 학습, 분산 학습 Mobile communication networks support the connection of various devices to meet the demands of new convergence services, resulting in an explosive increase in mobile traffic. To manage such explosive traffic, telecommunications operators are adopting AI-based algorithms, primarily using centralized learning methods. However, this approach requires frequent transmission of traffic logs to a central server, which burdens network capacity. To address this, decentralized learning strategies such as federated learning have been considered. However, several key issues must be resolved for effective application in mobile networks: i) Degradation in prediction performance due to regional data heterogeneity ii) Computational load due to limited computing resources iii) Communication efficiency issues due to frequent weight exchanges. This thesis proposes two federated learning-based methods to address these issues in mobile traffic prediction. First, the Federated Split Learning method addresses regional data heterogeneity and computational load issues. Second, the Layer-wise Personalized Federated Learning method addresses data heterogeneity and communication efficiency issues. The proposed Federated Split Learning method reduces the computational burden on the central server, enabling high performance model training even with limited client resources. Additionally, the proposed Layer-wise Personalized Federated Learning method trains models by reflecting the characteristics of each region, achieving high prediction performance while significantly reducing communication costs. The proposed methods are evaluated using real datasets from a telecommunications operator, demonstrating superior performance in terms of prediction accuracy, reduced computational load, and improved communication efficiency. Keywords: Mobile traffic prediction, personalized federated learning, layer-wise federated learning, distributed learning
저궤도 위성통신 시스템의 상향 링크 주파수 동기 선보상
선여진 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
저궤도 위성을 기반으로 하는 비지상 네트워크 (Non-Terrestrial Networks, NTN) 는 지상 인프라의 통신망으로는 서비스 제공이 제한되는 지역에서도 통신 서비스를 제공할 수 있어 6세대 이동통신 (6G) 의 핵심 기술로 주목받고 있다. 그러나 이러한 환경에서는 위성의 고속 이동으로 인해 큰 도플러 편이 (Doppler shift) 가 발생하게 되며, 사용자 단말은 네트워크로부터 제공받은 궤도 정보를 기반으로 상향 링크 송신 시 도플러 편이를 선보상 (pre-compensation) 할 필요가 있다. 3rd Generation Partnership Project (3GPP) Release 17에서는 이를 지원하기 위해 양자화된 위성 궤도 정보를 System Information Block Type 19 (SIB19) 메시지를 통해 단말에 제공하는 구조를 채택하고 있다. 그러나 표현 비트 수의 한계와 초기 오차로 인해 궤도 정밀도가 저하될 경우, 이러한 오차는 도플러 보정 성능 저하로 이어질 수 있다. 위성 통신 환경에서 도플러 편이는 신호의 주파수를 변화시켜 링크 품질을 저하시킬 수 있으며, 이를 보정하지 않을 경우 안정적인 통신 서비스 제공이 어렵다. 본 논문은 이러한 문제의식에 기반하여, SIB19 포맷이 제공하는 궤도 정보의 도플러 보정 정확도를 실증적으로 분석하는 것을 목표로 한다. 이를 위해 공공 데이터인 Two-Line Element Set (TLE) 을 참값으로 정의하고, 동일한 궤도 요소를 SIB19 구조로 양자화한 후 오차 특성을 비교하였다. 특히, 궤도 예측 및 보정 과정을 반영한 시뮬레이션 환경을 직접 구현하여, 양자화로 인한 오차뿐만 아니라 초기 위치 및 속도 오차에 따른 누적 예측 오차의 영향을 정량적으로 평가하였다. 또한, 실제 위성-단말 간 링크 연결 구간에서 계산된 도플러 편이를 기준으로 SIB19 기반 보정값과 TLE 기반 이상적 보정값 간의 차이를 분석하였으며, SIB19 메시지의 갱신 주기 (10초~10분)에 따른 보정 정확도의 변화를 관찰하였다. 이와 같은 절차를 통해 현실적인 궤도 정보 운용 조건에서 SIB19 메시지가 제공할 수 있는 도플러 편이 보정 성능을 평가하였으며, 향후 NTN 시스템 설계 시 궤도 정보의 표현 방식 및 갱신 주기 설정에 대한 기술적 기준을 제시하였다.
오창한 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
종단형 음성 인식 (end-to-end speech recognition) 모델의 발전 은 ASR (Automatic Speech Recognition) 기술의 성능을 비약적으로 향상시켜, 일부 영역에서는 인간의 성능을 초월하는 결과를 보여주었 다. 그러나 여전히 해결해야 할 여러 과제가 존재한다. Transformer 기반 AED (Attention-based Encoder-Decoder) 구 조는 음성의 발화 길이가 약 30초 이상인 경우 성능이 급격히 저하된 다. 이에 긴 발화에서도 모델의 성능이 강건할 수 있게 하는 연구들 이 제안되어 왔지만, 주로 모델의 손실 함수를 재정의하거나 파인튜 닝을 하는 등 제안된 방법을 수행하기 위해 재학습이 필요하다는 단 점이 있다. 음성 정보에 의존하는 ASR 기술은 실세계에 존재하는 수많은 종 류의 소음에 취약하다는 문제가 있다. 이에 따라 오디오 (Audio)와 소음의 영향이 적은 비주얼 (Visual)의 특징을 모두 활용하는 AVSR (Audio-Visual Speech Recognition) 기술이 등장하여, 소음이 있는 환경에서도 강건한 음성인식 성능을 보여주는 연구가 다수 제안되었 다. LRS3와 VoxCeleb2 데이터셋으로 학습된 AV-HuBERT는 두 모 달리티의 특징을 결합해 주목할만한 성능을 보여주었다. 그러나, 이렇 게 공개된 데이터셋들은 영어 위주이며 한국어 데이터로 학습된 모델 은 극소수에 불과하다. 본 연구에서는 긴 발화에서 AED 기반 음성인식 모델의 성능 저 하의 원인이 cross-attention 정렬 오류임을 찾아내고, gaussian masking을 통해 디코더의 각 time-step마다 적절한 위치에 집중할 수 있도록 cross-attention 가중치 분포를 조정하는 방식으로 해결한 다. 디코딩 시에 적절한 위치를 찾기 위해 CTC (Connectionist Temporal Classification)의 전방 확률 (forward probability)이 최대 가 되는 위치 값을 활용한다. 그 결과, 재학습 없이도 LibriSpeech 데 이터셋에서 25초 이상의 단어 오류율 (Word Error Rate)을 모두 개 선하며, 오류 감소율 (Error Reduction Rate)을 91.10% (33.48% vs 2.98%)까지 개선한다. 다음으로, 한국어 오디오-비주얼 데이터셋과 모델을 구축한다. 유 튜브에서 Creative Commons License (CCL)에 해당하는 한국어 영 상만을 추출하여 엄격한 전처리 과정을 거친다. 구축한 데이터셋으로 AV-HuBERT 모델을 사전학습과 파인튜닝한다. 오디오 정보만 사용 했을 때는 단어 오류율 17.78%를 달성하는 반면, 오디오 정보와 비주 얼 정보를 모두 사용했을 때는 단어 오류율 14.93%를 달성한다. 이러 한 결과는 비주얼 정보가 음성인식 성능 향상에 도움을 주며, 구축한 한국어 AVSR 데이터가 AVSR에 효과적임을 시사한다. 주요단어(Keyword) : AV-HuBERT, AVSR, Cross-attention, Hybrid CTC/Attention, Long-form speech. Recent advancements in end-to-end (E2E) speech recognition have led to remarkable improvements in ASR (Automatic Speech Recognition) performance, even surpassing human-level accuracy in certain domains. Nevertheless, various challenges remain. In particular, Transformer-based AED (Attention-based Encoder-Decoder) architectures exhibit a pronounced decline in performance when the length of the spoken utterance exceeds approximately 30 seconds. Although several studies have proposed methods to enhance robustness for such long utterances, the majority of these approaches—such as redefining the loss function or performing model fine-tuning—require retraining, which represents a notable drawback. ASR technology, which relies predominantly on acoustic information, faces significant challenges due to the wide variety of noise present in real-world environments. In response, Audio-Visual Speech Recognition (AVSR) techniques have been introduced, integrating audio features— which tend to degrade in the presence of noise—and visual features— which are relatively less affected by noise—to achieve robust recognition performance in noisy environments. Notably, AV-HuBERT, trained on the LRS3 and VoxCeleb2 datasets, has demonstrated impressive performance by combining features from both modalities. However, these publicly available datasets are predominantly English-based, and only a small number of models trained on Korean data currently exist. In this study, we identify cross-attention misalignment as the main cause of performance degradation in AED-based speech recognition models for long utterances. To address this issue, we employ Gaussian masking to adjust the cross-attention weight distribution, ensuring that the decoder focuses on the appropriate positions at each time step. During decoding, we leverage the position at which the forward probability of Connectionist Temporal Classification (CTC) is maximized to locate the optimal alignment. As a result, our method improves the word error rate (WER) for utterances exceeding 25 seconds in the LibriSpeech dataset without requiring retraining, achieving up to a 91.10% error reduction rate (from 33.48% to 2.98%). Next, we construct a Korean audio-visual dataset and train a corresponding model. By extracting only Korean-language videos under the Creative Commons License (CCL) from YouTube and applying rigorous preprocessing, we establish the dataset for AV-HuBERT pre-training and fine-tuning. When using only audio information, the model achieves a word error rate (WER) of 17.78%, whereas incorporating both audio and visual information lowers the WER to 14.93%. These results suggest that visual information contributes to enhanced speech recognition performance and that the constructed Korean AVSR dataset effectively supports AVSR. Key words : AV-HuBERT, AVSR, Cross-attention, Hybrid CTC/Attention, Long-form speech.
DCAT v3 기반 사용자 중심 메타데이터 관리 개념 모델
김민준 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2026 국내석사
데이터 메쉬(Data Mesh)의 비전을 실현하기 위해서는 각 도메인 의 전문가들이 기술 인력에 의존하지 않고도 직접 데이터를 관리하 고 운영할 수 있어야 한다. 이를 위해서는 복잡한 기술적 지식 없이 도 이해하고 활용할 수 있는 직관적이며 경량화된 메타데이터 관리 방식이 필요하다. 본 논문은 이러한 요구를 충족하기 위해 DCAT v3를 기반으로 한 새로운 메타데이터 관리 개념 모델을 제안한다. 제안된 모델은 Dataset Series, Versioning, Manifest 간의 구조적 관 계에 주목하여 메타데이터 작성 과정에서 발생하는 중복과 복잡성 을 최소화하는 데 초점을 둔다. 이를 통해 사용자는 데이터셋의 메 타데이터 작성 과정을 보다 자연스럽고 일관되게 수행할 수 있으며, 기술적 배경이 없는 사용자도 쉽게 메타데이터의 작성을 수행할 수 있도록 돕는다. 또한 본 모델은 DCAT v3가 제공하는 상호운용성과 표준 기반 구조를 유지하면서도 실제 운영 환경에서 메타데이터 입 력 부담을 크게 줄여, 비전문가 중심의 데이터 관리 환경 조성을 가 능하게 한다. 본 연구는 데이터 메쉬 환경에서 도메인 주도 데이터 관리의 실질적 구현 가능성을 높이는 기반을 마련한다는 점에서 의의가 있다. To realize the vision of Data Mesh, domain experts must be able to manage and operate data directly without relying on technical personnel. Achieving this requires an intuitive and lightweight metadata management approach that can be understood and used without complex technical knowledge. This thesis proposes a new conceptual metadata management model based on DCAT v3 to address these requirements. The proposed model focuses on the structural relationships among Dataset Series, Versioning, and Manifests, with the goal of minimizing redundancy and complexity in the metadata authoring process. By doing so, users can create metadata for datasets in a more natural and consistent manner, enabling even those without a technical background to easily produce metadata. Furthermore, while preserving the interoperability and standards-based structure provided by DCAT v3, the model significantly reduces the burden of metadata input in real-world operational environments. This study is significant in that it lays the foundation for enhancing the practical feasibility of domain-driven data management in Data Mesh environments.
Accelerating Short-Term Wind Power Forecasting: A Parallelized Divide-and-Conquer Approach
강민구 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2025 국내석사
전 세계적인 Net Zero 목표 달성을 위해서는 CO₂ 배출량이 가장 높은 전력 부문의 신속한 탈탄소화가 요구된다. 전력 1 kWh 생산 시 CO₂ 배출량이 약 11–26 gCO₂eq/kWh 가장 낮은 풍력 에너지는 이러한 에너지 전환의 핵심 수단이다 그러나 풍력 자원의 고유한 간헐성으로 인해, 전력망 안정성을 유지하기 위해서는 정확한 단기 풍력 발전 예측이 필수적이다. 출력의 분포가 시간에 따라 계속 바뀌는 풍력의 비정상성을 고려하면, 정확한 풍력 단기 예측을 위해서는 일정 구간의 최신 데이터만을 이용해 모델을 반복적으로 재학습하는 sliding-window 방식이 요구된다. 그러나, 빈번한 재학습은 높은 계산 비용을 유발하여 실제 운영 환경에서의 활용을 저해하는 배포 격차를 야기할 수 있다. 본 논문은 이러한 병목을 해소하고 학습 속도와 적응성을 극대화하기 위해, '분할 정복(Divide-and-Conquer)' 전략에 기반한 병렬화된 예측 방법론을 제안한다. 제안된 방법론은 K-Means 클러스터링을 통해 터빈을 공간적 위치와 운영 특성에 따라 분할하고, 각 클러스터의 지역적 특성을 반영한 국소화된 모델(Localized Modeling)을 구축한다. 이들 모델의 학습은 병렬 처리를 통해 동시에 수행되어 전체 학습 시간을 획기적으로 단축한다. 6 시간 선행 예측 실험 결과, 제안한 방법론은 단일 예측 모델(nRMSE 22.73%)과 대등한 22.54%의 nRMSE(RMSE 357.85)를 달성하면서도, 병렬화된 구조를 통해 총 학습 시간(training time)을 12.27 초에서 7.83 초로 약 36.2% 단축하였다. 추론 시간 및 모델 크기 측면의 증가가 존재하지만, 학습 효율성의 상당한 향상은 본 논문에서 제안한 병렬화된 국소화 모델링 방법론이 실시간 적응형 풍력 예측을 위한 실용적이고 확장 가능한 해법임을 시사한다. 주요단어: 6 시간 풍력 발전 예측, 슬라이딩 윈도우 학습, 병렬 학습, 국소화된 모델링, 학습 효율성, XG Boost The global imperative to achieve Net Zero emissions requires rapid decarbonization of the electricity sector, the highest CO2 emitter globally. Wind energy, offering the lowest lifecycle emissions of approximately 11–26 gCO2eq/kWh, is a key instrument in this energy transition. However, due to the inherent intermittency of wind resources, accurate short-term wind power forecasting is essential for maintaining grid stability. Considering the non- stationarity of wind, where power output distribution changes over time, accurate short-term forecasting requires a sliding-window approach that iteratively retrains the model using only a specific range of recent data. However, such frequent retraining incurs high computational costs, potentially leading to a deployment gap that hinders practical application in real-world operational environments. To address this bottleneck and maximize training speed and adaptability, this paper proposes a parallelized forecasting methodology based on a 'Divide-and- Conquer' strategy. The proposed methodology partitions turbines based on spatial location and operational characteristics using K-Means clustering and constructs localized models reflecting the regional characteristics of each cluster. The training of these models is performed concurrently through parallel processing, drastically reducing the total training time. Experimental results for 6-hour ahead forecasting demonstrate that the proposed methodology achieved an nRMSE of 22.54% comparable to the global model nRMSE 22.73%, while significantly reducing the total training time by approximately 36.2% (from 12.27 s to 7.83 s) through its parallelized structure. Although there are increases in inference time and imodel size, the substantial improvement in training efficiency suggests that the parallelized localized modeling methodology proposed in this paper is a practical and scalable solution for the short term wind power forecasting. Keywords: 6-Hour Wind Power Forecasting, Sliding Window Training, Parallel Training, Localized Modeling, Training Efficiency, Clustering, XG Boost