
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
오피니언마이닝에서 SVM+MTL을 이용한 감성분류 통합모형
Customer reviews which include subjective opinions for the product or service in online store have been generated rapidly and their influence on customers have become immense due to the widespread usage of SNS. In addition, a number of studies have focused on opinion mining to analyze the positive or negative opinions and get a better solution for customer support and sales. It is very important to select the key terms which reflected the customers’ sentiment on the reviews for opinion mining. In this study, we used the subjective movie, book, game, and music reviews from Amazon to extract suitable terms and then constructed the sentiment classification model based on the terms in document level. Also, to improve the performance of sentiment classification model, we proposed ISCOM model that compared to the previous models which mainly used the existing data mining techniques. The experimental results are presented as follows. First, this paper validated the fact that sensitive information can be represented by using various parts of speech(POS). Also, this study compared the difference between the result of only using adjectives and the result of using all the four kinds of POS(adjective, adverb, verb, noun). The difference can be identified by using sentiment classification model. Second, the variable selection of most previous studies are inefficient, for the reason that these models are usually extracted extensive terms and some terms may be very repetitive and some may not contain any sensitive information. To make up deficiency in previous model, we extract the significant terms by using POS tagging for the four kinds of POS separately. In addition, we utilize various kinds of feature selection approaches such as Information Gain(IG), Document Frequencey(DF), Term Frequency Inverse Document Frequency(TFIDF), Chi-squared Statistic(CHI). The significant terms are extracted by using each technique and then are applied to the sentiment classification model. Third, to the best of our knowledge, we first apply the novel techniques(SVM+, SVM+MTL) to opinion mining and construct the novel sentiment classification model and also validate its validity. Another notable feature of our paper is that we applied real data of Amazon to our proposed sentiment classification model and validated the performance. Finally we employed SVM, SVM+, and SVM+MTL as the benchmark model, and proposed the ISCOM (Integrated Sentiment Classification for Opinion Mining) model. Finally, we proposed an optimal model by comparing the results of these models. The results showed the out performance of ISCOM model to each separate model. ISCOM model is worth to apply to solve sentiment classification problems based on customer reviews. Our proposed opinion mining model is expected to improve customer service and gain competitive advantage in online store.
확정론적 기법과 자료기반 모형을 연계한 도시지역의 침수해석
최근 지구온난화와 이상기후의 발생으로 인해서 집중 호우가 증가하고 있는 상황이며, 태풍의 영향으로 도심지의 침수피해가 발생하여 많은 인명 피해와 재산피해가 나타나 국민들의 불안감 또한 고조되고 있는 현실이다. 기후변화에 따른 국내 기상특성이 변화하고 있어, 홍수와 가뭄의 발생 빈도와 규모가 점점 커지고 있는 실정(기상청 산하 25개 관측소를 기준으로 볼 때 ’99~’08년 1일 100mm 이상 집중호우 발생 빈도는 385회로 ’70~’80년의 221회에 비해 1.7배 증가)이다. 도시침수의 원인으로는 일반적으로 외수범람 및 내수 배제 불량으로 인해 도시지역 저지대를 중심으로 발생한다. 배수펌프장 등 별도의 배수시설을 보강하지 않은 채 저지대에 생활공간을 조성하고, 도심지를 관통하는 하천에 철도 및 도로 교량으로 밀집되어 대규모의 침수가 발생된다. 또한, 도시지역의 급격한 도시화로 인해 불투수 면적이 증가되어 우수유출량이 급격히 증가하고, 전기 및 상하수도 시설 등의 도시기반시설의 복구가 지연될 경우 장기침수로 이어진다. 특히, 수도권지역과 서울지역에는 우리나라 인구의 절반이 밀집되어 있으며 이로 인해 불투수율이 90%이상인 것으로 나타났다. 이에 대한 대책으로는 구조적인 대책과 비구조적인 대책이 마련되어야 한다. 본 연구의 목적은 최근 도심지의 이상기후로 인해 빈번히 발생되는 집중호우에 대비하여 내수침수모형을 구축하고 침수범위와 침수심을 분석하고 비구조적인 대책을 수립하고자 한다. 이를 구현하기 위하여 연구대상 지역의 2010년도, 2011년도의 실제 호우사상 자료를 수집하고 구축된 1차원 내수침수모형을 통해 월류량을 산정하였다. 이 월류량 데이터를 활용하여 2차원 수치모형의 입력값으로 사용하여 침수범람 범위를 분석을 실시하였다. 모형결과의 검증을 위하여 실제 연구지역의 범람위치를 실측한 자료인 NDMS와 모의결과와의 적합도 분석을 실시하여 결과에 대하여 검증 하였다. 검증된 2차원 수치모형 토대로 빈도별 확률강우량 시나리오를 구상하고 확률강우량에 따른 도시침수 범람 예상도를 도출하였다. 빈도별 확률강우량에 따른 2차원 수치모형 결과에서 각 시나리오별 침수심을 산정하였다. 현재 범람범위 및 침수심 계산결과는 신속성이 떨어지는 것이 현실이다. 이를 보완하기 위하여 시나리오별 침수심 결과를 이용하여 자료기반해석 모델(SVM을 구축하고 Rapid Simulation을 통한 실시간 침수심을 예측하였다. 예측된 모형의 결과는 오차분석을 통하여 검증을 실시하였다. 본 연구를 통해서 침수범위와 침수심에 따른 주민 대피 시기 및 장소를 공지하여 많은 사람들의 생명 및 자산의 위험을 줄이기 위한 행동을 취할 수 있는 시간을 제공할 수 있다. 나아가 전국의 과거의 실제 호우사상을 바탕으로 실시간 내수침수예측 모형에 적용하여 실제 강우 시 잦은 침수지역을 예측할 수 있으며, 유역관리 방법 등 구조적인 대책과 비구조적인 대책마련의 판단 근거로 활용할 수 있다. Recently, a localized torrential rain has occurred frequently by global warming and unusual weather. Urban inundation caused by the effects of typhoons has resulted in the loss of lives and property. As the meteorological characteristics of South Korea has changed due to the climate change, the frequency and magnitude of floods and droughts have increased (according to the 25 weather stations of the Korea Meteorological Administration, the frequency of localized torrential rains with more than 100mm per day from 1999 to 2008 was 385, which was 1.7 times more than the frequency of 221 from 1970 to 1980. River flooding and trouble of urban drainage are the general causes of urban inundation, which consequently occurs in urban lowland areas. The creation of residential areas in lowlands without any additional reinforcement of drainage facilities including drainage pump stations, as well as many railway and roadway bridges in the rivers flowing across urban areas, may result in large-scale inundation. Moreover, long-term inundation may occur in the events that the storm water runoff rapidly increases due to the increased impermeable areas generated from rapid urbanization in urban areas, and that the restoration of infrastructures including electric installations and water supply and sewage facilities is delayed. In particular, more than a half of the Korean population reside in the urban area, and therefore, the impermeability of these areas is estimated to be over 90%. To resolve this problem, both structural and non-structural measures need to be prepared. The present study aims to establish an inland inundation model as a preparation for localized torrential rains, which frequently occur due to the recent abnormal weather of urban areas, to analyze the inundation range and depth, and to come up with non-structural measures. In this regard, the data on actual rainfall events of 2010 and 2011 in the seoul metropolitan areas were collected and the overflows amount were calculated using the established one-dimensional inland inundation model. The inundation and flooding range was analyzed using this overflow amount data as the input to a two-dimensional numerical model. In order to verify the results of the model, a test was performed for goodness-of-fit between observed data provided by NDMS(National Disaster Management System) of flooding locations in the research areas and simulation results. Based on the verified two-dimensional numerical model, probable precipitation scenarios by frequency were drawn, and an urban inundation and flooding prediction map was produced. The inundation depth of each scenario was estimated using the results of the two-dimensional numerical model based on the design precipitation conditions. The existing calculation methodology to get informations of inundation area and depth need a large computational time. To compensate this aspect, a data-driven model(SVM) was established using the results of the inundation depths of each scenario, and a real-time inundation depth was estimated through the rapid simulation. The verification of the estimated results of the model was performed through error analysis methods. The results of this study provide the preparation time to take actions to reduce the risk of lives and property by notifying residents on time and place of evacuation according to the inundation range and depth. Furthermore, the real-time inland inundation prediction model based on the previous rainfall events of the country may facilitate the prediction of frequent flooding sites in the event of an actual rainfall, and serve as the foundation for the determination as to the preparation of structural and non-structural measures, including the watershed flood mitigation strategies.
탁지훈(卓智訓) 서울시립대학교 일반대학원 2024 국내박사
본 연구는 화물자동차의 적재상태(공차, 영차)를 추정하는 새로운 방법론을 제시한다. 화물자동차의 적재상태 정보는 교통계획, 환경(예, 탄소 배출량) 및 차량 안전 연구에 필수적인 자료로 활용된다. 기존의 화물자동차 적재상태 정보를 수집하는 방법에는 국내 전국화물통행 실태조사와 같은 직접조사방법과 WIM과 같은 시스템을 활용하여 수집하는 방법이 있다. 그러나 이들 방법에는 명백한 한계가 있다. 기존의 데이터 수집 방법에 대한 한계를 극복하고자 본 연구는 DTG(Digital Tacho Graph) 데이터를 기반으로 한 방법론을 개발하였다. 이 방법론은 속도, 가속도, rpm 간의 관계와 차량 동역학, 동력전달계, 주행저항의 이론적 배경을 결합하여 화물자동차의 적재상태를 추정하는 것이다. 본 연구는 화물자동차의 적재상태를 추정하기 위해, 뉴턴의 제2법칙인 가속도 법칙을 전제로 하였다. 이 원리에 따르면, 화물자동차가 동일한 힘()으로 운행할 때, 공차와 영차 사이에서는 가속도()의 차이가 발생한다. 구체적으로는 공차의 가속도()는 영차보다 크게 나타나며, 정확한 분석을 위해 특정 상황 및 특정 조건에서의 공차와 영차를 구분할 필요가 있다. 이때, 정확한 분석을 위한 특정 상황 및 특정 조건을 ‘통행 단위별 속도 범위별 기어단수별 가속상태의 평균 가속도’로 설정하였다. 따라서 본 연구는 '통행 단위 분석', '기어단수 구분', '속도 범위 설정', 그리고 '가속상태의 평균 가속도' 각 요소의 필요성을 검토하고, 이를 토대로 화물자동차의 적재상태를 더 정확하고 효과적으로 추정할 수 있는 새로운 방법론을 제시하였다. 연구 과정에서는 KDE(Kernel Density Estimation)를 이용한 기어단수 구분, 도로 경사도 산출, 속도별 고빈도 기어단수 추출 및 가속상태 평균 가속도 산출을 통해 활용변수를 구축하였고, 분류모형에 적용하기 위한 분석대상 데이터셋을 구축하였다. 또한, SVM 과 BNN 모형을 활용하여 화물자동차의 적재상태 추정을 위한 분류모형을 구축하였고, 이 두 모형의 비교를 통해 최적의 모형을 선정하였다. 분석대상 데이터셋을 활용한 화물자동차의 적재상태 추정결과 89.28%의 정분류율을 달성하였으며, 특히 속도 범위 69~80km/h에서는 정분류율이 95%로 높게 나타났다. 이러한 결과는 통행 단위에서의 화물자동차 적재상태 판단에 있어 100%의 정확도를 가지는 것으로 확인되었다. 화물자동차의 적재상태를 정확히 추정하는 것은 운송 산업의 효율성과 안전성을 높이는 데 핵심적인 역할을 한다. 이를 위해 본 연구는 기초학문인 차량의 동역학적 접근을 토대로 분석을 수행하였다. 본 연구의 큰 독창성 중 하나는 기초역학의 원리를 현실의 데이터 분석에 적용한 점이다. DTG 데이터에서 수집된 속도와 rpm 정보를 활용하여 공차와 영차의 가속도 차이를 분석한 것으로 뉴턴의 운동법칙인 가속도 법칙으로 간단하게 표현되었지만, 실제 운전 환경에서의 데이터를 분석하는 것은 훨씬 더 복잡하다. 이러한 복잡성 속에서도 차량동역학의 기초 법칙을 통해 유의미한 결과를 도출할 수 있었다. 본 연구의 확장과 향후 연구 방향은 물류 효율성과 경제성, 그리고 환경 문제 등 다양한 측면에서 큰 의미를 지닐 것이다. This study introduces a new methodology for estimating the loading state (empty or loaded) of freight trucks. The loading state information of freight trucks is essential for transportation planning, environmental research (e.g., carbon emissions estimation), and vehicle safety studies. Traditional methods of collecting the loading state of freight trucks include direct surveys such as the National Freight Traffic Survey and measuring systems such as Weigh-In-Motion (WIM). However, these methods have clear limitations. To overcome these, we developed a methodology based on DTG (Digital Tachograph) data. This estimates the loading state of freight trucks by combining the relationship between speed, acceleration, rpm, and the theoretical background of vehicle dynamics, powertrain, and driving resistance. The estimation of the loading state of freight trucks is predicated on Newton's second law of motion, the law of acceleration. According to the principle, when a freight truck operates under the same force, a difference in acceleration occurs between an empty truck and a loaded truck. Specifically, the acceleration of an empty truck is greater than that of a loaded truck. For precise analysis, it is necessary to differentiate between the empty and loaded states under specific circumstances and conditions. We defined these specific ‘circumstances’ and ‘conditions’ as average acceleration by trip unit, speed range, and gear ratio. Thus, we evaluated the necessity of 'trip unit analysis', 'gear ratio differentiation', 'speed range setting', and 'calculation of average acceleration in acceleration state'. We then proposed a new methodology for a more accurate and effective estimation of the loading state of freight trucks. Feature set for the truck’s loading state classifier was constructed after gear ratio differentiation based on KDE (Kernel Density Estimation), road gradient calculation, extraction of high-frequency gear ratios by speed, and calculation of average acceleration in acceleration state. SVM and BNN were built as classifiers, and the optimal model was selected after comparing their performances. The optimal model, BNN’s accuracy achieved was 89.28%, particularly 95% in the speed range of 69-80km/h. This result confirmed a 100% accuracy in determining the loading state of freight trucks at the trip unit level. Accurate estimation of the loading state of freight trucks is crucial in enhancing the efficiency and safety of the transportation industry. We conducted an analysis based on the fundamental scientific approach of vehicle dynamics. A significant innovation of this study lies in applying the basic mechanic principles to real-world data analysis. While the difference of acceleration between empty and loaded trucks was analyzed using speed and rpm data from DTG and succinctly expressed through Newton's law of acceleration, analyzing real-world driving data is much more complex. Even within this complexity, meaningful results were derived through the laws of vehicle dynamics. The expansion and future research directions of this study are expected to hold significant implications in various aspects, including logistics efficiency, economic feasibility, and environmental issues.
LSTM 기반 홍수예측을 활용한 동적 댐 운영 기법 개발
최근의 기상이변과 극한 호우 사상으로 홍수대응의 중요성은 점점 더 커지고 있는 상황이며, 특히 저수지의 홍수예측 및 홍수조절은 해당 유역 의 상하류 지역의 홍수피해에 결정적인 영향을 미칠수 있다. 그러나, 일반적으로 다목적댐의 홍수조절은 담당자의 업무 숙련도·이해 도에 의존하여 유입량 예측 및 방류의사결정으로 이루어지고 있는데, 그에 따라 담당자의 숙련도·이해도 편차로 인한 물리적 홍수예측모형의 분석 결 과 및 속도가 상이하다. 또한 국지성호우의 증가로 인해 강우예측의 불확 실성은 더욱 커질 우려가 있으며, 돌발홍수 등 지속기간은 점점 짧아지고 있는 관계로 기존의 결정론적 홍수예측모델을 바탕으로 신속한 의사결정을 하기에는 점점 난이도가 올라가고 있는 실정이다. 그러나, 다행스럽게도 지속적으로 수문관측자료는 계속 축척되고 있으 며, 그 정확도는 지속적으로 올라가고 있는 실정으로, 충분한 데이터와 전 문성을 갖춘 기술자를 필요로 하는 결정론적 홍수예측 뿐만아니라, 확률론 적 홍수예측도 어느정도 가능한 시대에 왔으며, 이에대한 니즈도 지속되는 실정이다. 따라서 본 연구는 인공신경망 기법 중 하나인 LSTM과 SVM을 이용하 여 한강수계 4개댐(소양강,횡성,충주,광동댐)에 대하여 홍수예측모델을 구 축하고, 그 중 3개의 다목적댐(소양강,횡성,충주댐)에 대해서는 RIGID RO M을 적용하여 홍수조절을 모의하였다. 댐 홍수량 산정을 위해 LSTM 모형과 SVM 모형을 15년간 강우사상에 대하여 적용하되, LSTM의 경우 과접합과 자기 상관성을 해소하기위해 De lay Time과 Embeded DImension의 개념을 추가 적용하여 평가하였으며, 그 결과 모의 작후 6시간 까지는 예측자료의 적정성이 확보되었다. 개발 모형을 기반으로 2020~2023년 한강수계 다목적댐의 홍수조절 적 용성을 RIGID-ROM을 이용하여 적용하였으며, 그 결과, 실제 홍수조절결 과에 비하여 유사한 수준으로 적절하게 홍수조절이 이루어졌음을 알수 있 었다. 즉, 본 연구에서 LSTM 기반 기계학습으로 생성된 6시간 단기 홍수예 측량을 활용하여 댐 홍수조절에서의 적용 가능성을 검토한 결과 AI홍수량 을 활용한 댐운영은 실무 적용 가능성이 충분하다고 판단되었다. 주요어 : 강우-유출모형, LSTM, SVM, 기계학습, 댐 운영, RIGID-ROM The importance of flood response is increasing due to recent abnormal weather events and extreme heavy rain events, and in particular, flood routing in reservoir and flood control can have a decisive impact on flood damage in the upstream and downstream areas of the basin. However, in general, flood control of multi-purpose dams is carried out by predicting inflow and making discharge decisions depending on the job skills and understanding of the person in charge. Accordingly, the analysis results and speed of the physical flood prediction model may vary due to variations in the person in charge's skill and understanding. Different. In addition, there is concern that uncertainty in rainfall forecasts will further increase due to the increase in localized heavy rainfall, and as the duration of flash floods is becoming shorter, it is becoming more and more difficult to make quick decisions based on existing deterministic flood prediction models. This is the situation However, fortunately, hydrological observation data is continuously being accumulated, and its accuracy is continuously increasing, making not only deterministic flood prediction, which requires engineers with sufficient data and expertise, but also probabilistic flood prediction to some extent possible. The times have come, and the need for it continues. Therefore, this study uses LSTM and SVM, one of the artificial neural network techniques, to build a flood prediction model for four dams in the Han River system (Soyang River, Hoengseong, Chungju, and Gwangdong Dam), and three of them multipurpose dams (Soyang River, Hoengseong, and Chungju Dam) ), flood control was simulated by applying RIGID ROM. To calculate dam flood volume, the LSTM model and SVM model were applied to rainfall events for 15 years. In the case of LSTM, the concepts of Delay Time and Embedded DImension were additionally applied and evaluated to resolve overconnection and autocorrelation, and as a result, after the simulation, The adequacy of the forecast data was secured up to 6 hours. Based on the development model, the flood control applicability of the multipurpose dam in the Han River basin from 2020 to 2023 was applied using RIGID-ROM, and as a result, it was found that flood control was appropriately achieved at a similar level compared to the actual flood control results. In other words, as a result of examining the applicability in dam flood control using the 6-hour short-term flood forecast generated by LSTM-based machine learning in this study, it was determined that dam operation using AI flood forecast has sufficient practical applicability Keywords : Rainfall-Runoff Model, LSTM, SVM, Machine Learning, Dam Operation Rule, RIGID-ROM
기업의 국가기술자격증 우대현황에 미치는 영향요인 분석 : 2022년도 수험자 기초통계를 중심으로
최호준 고려대학교 정책대학원 2024 국내석사
The National Technical Qualification System was established in 1973 with the enactment of the National Technical Qualifications Act. Currently, over 1.5 million individuals take exams annually, utilizing certifications across various fields. Given the recent emphasis on employment and job changes in the hiring market, it is necessary to understand how certifications are practically utilized in corporate settings. This study aims to analyze the preferential treatment and content of preferential treatment for certifications from the perspective of examinees, using survey data from candidates registering for the 2022 national technical qualification exams on Q-Net (www.q-net.or.kr). Independent variables include 'qualification grade,' 'company size,' and 'applicant age,' while dependent variables are 'preference status at workplace' and 'content of workplace preference.' The analysis is based on responses from 1,345,548 individuals who answered the question about 'preference status at workplace' from the 2022 examinee basic statistics data. For the 'content of workplace preference,' responses from 827,023 individuals who answered 'preferred' in the 'preference status at workplace' question were used. The analysis involved conducting a significance test using the chi-square test, followed by logistic regression analysis, random forest model, SVM model, and LightGBM model. The goal was to identify the model with the highest accuracy and F1 score and determine the most significant variables affecting the preferential treatment and content of preferential treatment for certifications. 국가기술자격제도는 1973년에 국가기술자격법이 만들어짐에 따라 현재는 150만명 이상의 사람들이 매해 시험에 응시하여 다양한 분야에서 자격증이 활용되고 있다. 특히 취업 및 이직 등이 채용시장에서 화두가 된 최근 상황에서 자격증이 실제 기업현장에서 어떻게 활용되는지를 파악할 필요가 있다고 보인다. 본 연구는 큐넷(www.q-net.or.kr)에서 2022년 국가기술자격시험을 접수하는 수험자를 대상으로 하는 설문자료를 기초로 하여 ‘자격등급’ ‘사업장규모’ ‘응시연령’을 독립변수로 하고 ‘근무처 우대여부’ ‘근무처 우대내용’을 종속변수로 하여, 자격증을 수요하는 수험자의 입장에서 체감하고 있는 자격증 우대여부 및 우대내용을 분석하고자 한다. 분석 자료는 2022년 수험자 기초통계 자료에 기초하여 ‘근무처 우대여부’에 답변한 1,345,548명의 답변을 대상으로 하였으며, ‘근무처 우대내용’의 경우 ‘근무처 우대여부’에서 ‘우대함’에 답변한 827,023명을 대상으로 하였다. 분석 데이터에 대해 카이제곱검정을 통한 유의성 검사를 실시한 이후 로지스틱 회귀분석, 랜덤포레스트 모형, SVM 모형, Lightgbm 모형으로 분석하여 최종적으로 가장 정확도와 F1 score가 높은 모형을 검토하고, 자격증 우대여부 및 우대내용에 있어 가장 중요도가 높은 변수가 무엇인지 파악하고자 하였다.
SVM과 PLS를 활용한 세분화 예측모형 개발 및 비교연구
기업 간의 경쟁이 심화된 오늘날 기업의 성공에 가장 중요한 요인은 고객가치의 파악과 서비스의 차별화에 있다. 시간이 지날수록 고객의 수준과 개성이 다양해지는 가운데 자사고객으로의 유치를 위해서는 그 고객의 니즈를 파악하고 충족시켜 줄 수 있어야 한다. 또한 기업은 개별 소비자에 대하여 일대일 관계를 맺고, 고객의 입장에서 그 고객을 이해하고 개별 고객에 대한 차별적인 대응을 통하여 고객과의 신뢰를 형성할 수 있게 된다. 즉, 기업경영에 있어 고객세분화와 타겟마케팅의 필요성이 점점 커지고 있는 것이다. 이를 위해서는 고객의 니즈를 파악할 수 있는 예측모형의 개발이 필수적인데 종래 기업에서 일반적으로 적용되고 있는 하나의 예측모형으로 다양한 니즈를 가진 고객집단을 설명하는 데는 한계가 따른다. 따라서 본 논문에서는 반응/미반응 목표변수를 갖는 모집단에 대해 군집분석을 통하여 세분화 과정을 거친 후, 세분화 마트별로 예측모형을 각각 개발함으로써 다양한 고객층을 세분화된 예측모형으로 설명하고자 한다. 또한 본 논문에서는 교차타당성(cross validation)을 이용한 반복실험을 통해 분석결과의 신뢰도 향상뿐만 아니라 일반화까지도 고려한다. 그리고 예측모형은 의사결정나무와 로지스틱회귀분석과 나아가 서포트벡터머신과 부분최소제곱법모형을 적용함으로써 최적의 세분화 모형 제시를 시도한다. 교차타당성을 이용한 10회의 반복실험을 한 결과 동일기준하의 단일모형과 세분화모형의 비교실험에서는 4가지의 모든 모형에서 세분화모형이 오분류율, 민감도, 특이도 측면에서 대부분 우수하였다. 그리고 동일기준이 아닌 각 모형별로 분류기준값과 모형방법을 적절하게 적용하여 개발한 최적의 모형에서는 단일모형에 비해 모든 세분화모형에서 높게 나타남을 확인하였다. 결과적으로 예측모형 개발 시 고객정보를 바탕으로 고객을 세분화하여 모형을 개발한다면 예측력 향상뿐만 아니라 모형의 효과적인 활용까지 기대할 수 있음을 알게 되었다.
교통부문 온실가스 배출량 산정을 위한 예측방법론의 비교 연구 : LSTM, SVM 및 Random Forest
QIAN YUHUI 국립부경대학교 대학원 2025 국내석사
본 연구는 대한민국 도로교통 부문의 이산화탄소 배출량을 정확하게 예측하고자 확장된 (CO ) ₂ 모형과 기계학STIRPAT(Stochastic Impacts by Regression on Population, Affluence and Technology) 습 기반의 예측 모델을 활용하였다 분석에 사용된 변수는 인구 인당 국내총생산 도시화율 여. , 1 (GDP), , 객 수송량 화물 수송량 에너지 집약도 지수 탄소 집약도 지수 등 총 개로 구성되었으며 년부, , , 7 , 1990 터 년까지의 년 동안 연도별 데이터를 기반으로 하였다 본 연구에서는 2019 30 . LSTM(Long Short-Term 모델 등 세 가지 예측 모델을 구축하여 도Memory), SVM(Support Vector Machine), Random Forest 로교통 부문의 배출량을 예측하고 등 다양한 평가 지표를 통해 모델 성능을 CO , MAE, RMSE, MAPE ₂ 비교하였다 분석 결과 모델이 가장 뛰어난 예측 성능을 보였다 이를 바탕으로 년부터 . , LSTM . 2021 년까지의 기준 저탄소 고탄소 시나리오를 설정하여 장기적인 예측을 수행하였다 시나2040 (BAU), (L), (H) . 리오별 분석 결과는 정책적 선택에 따라 배출량의 정점 도달 시기와 총 배출량에 큰 차이가 나타날 수 있음을 보여주었으며 조기에 탄소 배출 정점을 달성하기 위한 적극적인 정책 대응이 필요하다는 , 점을 강조하였다 본 연구는 기계학습 기반의 예측 방법이 교통 부문 탄소중립 전략 수립에 실질적으. 로 기여할 수 있는 중요한 도구임을 시사한다. 키워드: 도로교통, 이산화탄소 배출, STIRPAT 모형, LSTM, SVM, Random Forest, 시나리오 분석, 기계학습 This study aims to accurately forecast carbon emissions from the road transportation sector in the Republic of Korea using advanced machine learning techniques, thereby contributing to national carbon neutrality strategies. Utilizing an expanded STIRPAT (Stochastic Impacts by Regression on Population, Affluence, and Technology) model, this research integrates eight key variables: population, per capita GDP, urbanization rate, passenger turnover, freight turnover, vehicle ownership, energy intensity, and carbon intensity, covering data from 1990 to 2019. Three forecasting models—Long Short-Term Memory (LSTM), Support Vector Machine (SVM), and Random Forest (RF)—were developed and evaluated using performance metrics such as Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and Mean Absolute Percentage Error (MAPE). The LSTM model exhibited superior predictive accuracy and was thus employed for scenario analysis. Emission trajectories for baseline, low-carbon, and high-carbon scenarios were projected for the period from 2021 to 2040, highlighting significant variations in peak emission timings and cumulative emissions depending on policy choices. The results underscore the effectiveness of deep learning methodologies in environmental forecasting and provide valuable policy implications for achieving early carbon peak goals through enhanced transport efficiency and technological advancement. Furthermore, this study demonstrates that data-driven modeling approaches can serve as critical tools for sustainable transport planning and operational decision-making. Keywords: Road Transport, Carbon Emissions, STIRPAT Model, Long Short-Term Memory, Support Vector Machine, Random Forest, Scenario Analysis, Carbon Neutrality
ABSTRACT On July 21, 2005, the People's Bank of China officially declared the system of exchange rate which referred a basket of currencies with managed floating and based on market supply and demand. Since the implementation of the new exchange rate regime, RMB emerged the continually trend of appreciation. On October 15, 2007, after the Shanghai composite index has just broke 6000, stock market faced adjustment by a large margin. On the middle of November 2007, the Shanghai securities composite index decreased by 17% in just a month. On October 28, 2008, the index dropped to the lowest point in this round of bear market by 1664.93. The decline of 72.83% shook the global capital markets. The current situation faced by China is very similar to the situation of Japan's economic crisis in 1980s. In this context, by studying the reform of China's exchange rate and the reform of the shareholder structure (the internal mechanism and the development track of impact of RMB exchange rate changes on the China's securities market), it is related to the interests of investors, and it also has very important role to avoid repeat the mistake and to promote the China's financial markets into long-term healthy and stable development. Therefore, in this paper, making empirical analysis with using the latest data and scientific research methods (econometric method---vector auto regression model (VAR) and machine learning method---support vector machine (SVM)) based on China's current economic background and the previous research. To find whether there is a long-term stable relationship or causal relationship between exchange rate changes and stock price index based on the large amounts of data. The conclusions are as follows: (1) Both in long-term and short term, changes in RMB exchange rate will have an impact on China's stock price index; (2) Long-term influence coefficient is positive, and short-term influence coefficient is negative; (3) According to the results of granger causality test, the exchange rate is the granger cause of index and the index is not the granger cause of exchange rate, under the confidence level of 10%. Finally, this paper will put forward some corresponding policy suggestions. The innovation of the paper is: try to use support vector machine (SVM) method to solve the problem in this thesis, which is a forceful tool to solve machine learning by optimization method, and it has been successfully applied to many fields of data mining. It shows a new possibility to solve the problem of economics. Keywords:the RMB exchange rate,the stock price,vector auto regression model (VAR), support vector machine (SVM) 개요 2005년 7월 21일 중국인민은행은 시장공급을 기반으로 통화바스켓을 편입하여 관리변동환율제를 이행한다고 정시적으로 발표하였다. 신 환율제도를 도입하자 위안화는 지속적인 절상폭을 보이게 되었다. 2007년 10월 15일, 상해종합주가지수가 6000포인트를 돌파하여 중국증시도 대폭적인 조정시기에 들어갔다. 2007년11월 중순까지 불과 1개월의 짧은 시간에는 17% 하락하였으며 2008년 10월 28일에는 약세장의 최저점인 1664.93 포인트까지 떨어져 72.83%의 하락폭으로 기록되면서 글로벌자본시장에게 큰 충격을 일으켰다. 이런 상황은 1980년대 일본경제위기에 처한 모습과 매우 근사하다. 위와 같은 배경을 두고 중국 환율개혁 및 지분분할개혁에 대한 연구를 통해 환율시장과 증시 간의 연관성을 파악하며 위안화 환율변동과 중국 증시 간 상호작용의 내부적인 메커니즘과 추이를 분석하는 것은 투자자의 이익획득에 물론, 중국금융시장이 전철을 밝지 않고 건강하고 지속 가능한 발전할 수 있도록 크게 기여할 수 있는 것으로 보인다. 그래서, 본문은 중국의 현재 경제상황을 바탕으로 하여 연구성과들을 참고하며 최신 데이터와 과학적인 연구방법 (계량경제학방법 - 벡터자기회귀(VAR)모형, 기계 학습 - 서포트벡터머신(SVM))을 활용하여 실증분석을 실시함으로써 방대한 데이터 속에서 위안화 환율변동과 주가지수 간에 안정적이고 장기적인 관계 혹은 인과관계가 존재 여부를 탐구하였다. 그리고 아래와 같은 연구결과를 얻었다. (1) 위안화의 환율변동은 장기적이든 단기적이든 모두 중국의 주가지수에 영향을 미친 것이다. (2) 장기적인 영향지수는 양수이며 단기적인 영향지수는 음수이다. (3) 그랜저 인과관계검정의 결과에 의하면 신뢰 수준이 10% 미만할 경우 환율은 주가지수의 그랜저 원인이 되지만 주가지수는 환율의 그랜저 원인이 아니다. 이외에, 본문에서 정책차원의 의견도 추가로 제기하였다. 본문의 혁신은 바로 서포트벡터머신(SVM)를 활용하여 본문 과제에 해결하고자 하는 시도에 있다. 서포트벡터머신(SVM)는 최적화법을 이용하는 강력한 기계 학습 모델로서 이미 데이터 발굴을 비롯한 여러 분야에서 성공적으로 응용되고 있으며 경제학 과제의 해결에도 새로운 가능성을 보여준다.