
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
도시가스의 수요는 계속해서 증가하는 추세이며 가정 및 산업에서 광범위하게 사용되고 있다. 그러나 도시가스는 가연성과 폭발성 등으로 사고 가능성이 항상 존재한다. 또한 도시가스 수요를 과다 예측할 경우에 재고의 유지 및 관리비용이 상승하여 수급관리가 비효율적으로 이루어진다. 안정적인 도시가스의 공급을 위해서는 가스 사용기기에 적합한 가스 압력을 일정하게 유지시켜주는 도시가스 정압기의 압력값을 예측할 필요성이 있다. 본 논문은 시계열모형과 머신러닝모형을 기반으로 도시가스 정압기 예측시스템을 제안함으로써 정압기 압력 관리 시스템의 효율성을 높이고자 한다. 분석을 위한 데이터는 SCADA 시스템을 기반으로 수집한 정압기의 2차 압력 데이터를 이용하고, 압력의 영향을 주는 요소인 온도 변수를 추가 통합해 사용한다. 온도 변수는 정압기 압력 수치와 같은 시점으로 이루어진다. 데이터 전처리를 한 뒤, 장기예측과 단기예측을 하기 위한 학습데이터와 평가데이터를 생성한다. 전통적 시계열 모형인 SARIMA 모형, SARIMAX 모형과 머신러닝 기반 모형인 LSTM 모형, Transformer 모형을 이용하여 예측 모델을 구현한다. 모델을 구현한 뒤, 성능평가를 위한 척도는 RMSE를 사용한다. 장기예측을 한 경우에는 SARIMAX 모형의 RMSE가 0.0248로 가장 낮음을 확인하였다. 반면에 여름을 단기예측한 경우에는 SARIMA 모형의 RMSE가 0.013으로 가장 낮았고, 겨울을 단기예측한 경우에는 SARIMA 모형의 RMSE가 0.0189로 가장 낮음을 확인하였다. 구축된 도시가스 정압기의 압력 예측시스템을 통해 향후 장기, 단기로 나누어 압력수치를 예측할 수 있으며 예측결과는 정압기 운용의 체계화에 적용될 수 있다. 또한 전문가는 예측시스템을 통해 압력 이상 여부를 예상하고 대비할 수 있고 이를 통해 정압기의 안전관리에 기여할 것으로 기대한다. Demand for city gas continues to increase and is widely used in homes and industries. However, there is always a possibility of accidents due to combustibility and explosive gas. In addition, when the demand for urban gas is excessively predicted, the maintenance and management costs of inventory increase, resulting in inefficient supply and demand management. In order to supply stable city gas, it is necessary to predict the pressure value of the city gas static pressurizer that maintains a constant gas pressure suitable for gas use devices. This paper aims to increase the efficiency of the static pressure management system by proposing a city gas static pressure machine prediction system based on the time series model and machine learning model. Data for analysis uses secondary pressure data of static pressure devices collected based on the SCADA system, and additionally integrates temperature variables, which are factors that influence pressure. The temperature variable consists of the same point in time as the static pressure value. After preprocessing the data, learning data and evaluation data are generated for long-term and short-term predictions. The predictive model is implemented using the traditional time series model SARIMA model, SARIMAX model, and machine learning-based model LSTM model, and Transformer model. After implementing the model, RMSE is used as a measure for performance evaluation. In the case of long-term prediction, it was confirmed that the RMSE of the SARIMAX model was the lowest at 0.0248. On the other hand, in the case of short-term prediction of summer, the RMSE of the SARIMA model was the lowest at 0.013. In the case of short-term prediction of winter, it was confirmed that the RMSE of the SARIMA model was the lowest at 0.0189. Through the established pressure prediction system of city gas static pressure devices, pressure values can be predicted in the long and short term in the future, and the prediction results can be applied to the systematization of static pressure operation. In addition, experts expect to be able to predict and prepare for abnormal pressure through the prediction system and contribute to the safety management of static pressure devices.
The house price index represents the price level of the housing market at a given point in time. It is used as a basis for decision-making by market participants such as individuals, governments, and construction companies. Several methodologies have been proposed to produce accurate house price indexes. These methodologies can be categorized into 'transaction-based indexes' and 'appraisal-based indexes' based on the underlying data. Both transaction-based and appraisal-based indexes have their advantages and disadvantages. The transaction-based index relies solely on actual transaction prices, making it a sensitive and accurate reflection of the housing market. However, due to the sample size used for analysis, higher spatio-temporal resolutions, such as covering smaller areas, can make the index unstable. The appraisal-based index, on the other hand, is stable in small areas and when the transactions are sparse. However, due to the smoothing and conflict of interest issues that arise when humans appraise house prices, these indexes can be inaccurate and differ from actual market flows. Using the same index formula as the appraisal-based index, such as the varying parameters model, but utilizing estimates from a statistical model based on actual transactions rather than human appraisals, can compensate for the shortcomings of the previous two methods. However, the early varying parameters model is built at each cross-sectional time point based on multiple regression analysis, which has issues of misspecification of the functional form and the inability to account for spatiotemporal autocorrelation effects. Unlike classical statistical models, machine learning methods are non-parametric and able to capture the relationship between variables on their own. Therefore, if the spatiotemporal effects of house prices are properly modeled through machine learning, it can improve the model performance and derive the best-fit line for house prices over time. The specific hypotheses of this study are as follows. First, machine learning models can capture the relationship between the spatiotemporal distribution and house prices through the inputs of the time and location of housing transactions. To demonstrate this, spatiotemporal autocorrelation metrics were calculated for each house price and machine learning model estimation errors. Second, machine learning models can estimate the potential price that would have been formed if the transaction had been captured for the point in time when the transaction did not occur. Previous studies have noted that transaction prices cannot be used to construct a market capitalization-based index for housing because transactions do not occur at every point in time. However, stock indexes use a method that replaces the price at which trades are not captured with an extension of the final transaction price, so it is possible to construct a market capitalization-based index for housing using the same method. However, in the housing market, using an extension of the final price can lead to a gap between the potential price of houses and the price that would have been formed if the transaction had occurred during a long period. Therefore, it is necessary to estimate the potential price more accurately with the model than with a simple extension of the final price. To demonstrate this, this study randomly isolates test set transactions assuming that they are potential prices that never occurred, and compares which provides a better estimate of the potential price: a simple extension of the final transaction price in the training set or the machine learning model estimations. Third, the house price indexes produced by the machine learning model-estimated prices more accurately reflect market trends than traditional appraisal-based indexes, and unlike time-dummy indexes, they are more stable in small areas and during periods of market recession. To confirm this, this study built machine learning model-based price indexes and compared them with traditional price index methodologies. To build the Automated Valuation Model (AVM) for housing prices, the transaction data of apartment sales in Seoul provided by the Korean government with data on apartment characteristics are used to train the Artificial Neural Networks (ANN) and LightGBM model. To reduce the randomness characteristic of machine learning models and improve the estimation accuracy, this study introduced the model ensemble and explored the optimal combination of hyperparameters and input features based on the model estimation error. The AVM implementation resulted in a test set MAPE of 4.929% for ANN, 4.608% for LightGBM, and 4.478% for the Ensemble model, defined as the average of the two models. The SHAP analysis confirms that the model captures the non-linear and complex relationship between input features and house prices, and the spatiotemporal autocorrelation test shows that the autocorrelation is significantly reduced in the estimation error of the machine learning model compared to the original transaction prices, indicating that the model captures the spatiotemporal effect of house prices. This study also found that the difference between the machine learning model's estimated price and the potential price is significantly smaller than the difference between the final transaction price of each apartment in the training set and the potential price in the test set. Thus, by modeling the spatiotemporal distribution of house prices through machine learning, it can build the AVM that can accurately estimate housing prices. The trained AVM calculated the apartment price index based on the estimated prices at each point in time for all apartments. This study calculated the Laspeyres index, which is based on market capitalization, and the Jevons index, which is calculated as the geometric mean of the rate of change, and compared them with appraisal-based indexes from KB and Korea Real Estate Board, as well as the transaction-based time dummy indexes. As a result, the machine learning-based price index showed a higher rate of price change over the long-term period compared to the appraisal-based index and a similar trend to the time dummy index. On the other hand, in the small regions, such as Gu and Dong, the time dummy indexes become unstable especially during the periods of market recession while the machine learning-based indexes are stable. Depending on the machine learning method, the ANN-based indexes showed smoother flows in sub-regions compared to LightGBM, but ANN also showed smoothing in the short term, during market recessions. On the other hand, LightGBM is more sensitive but has less smooth flows in the market recessions. The Ensemble model-based index, which has the highest estimation accuracy as an average of the two models, is less prone to smoothing during market downturns and tends to fluctuate more naturally than LightGBM, even when transaction samples are sparse. Thus, the machine learning-based price index proposed in this study can solve the smoothing problem of the existing appraisal-based indexes to more accurately reflect the flow of the housing market. It also has the advantage of being more stable than time dummy indexes and can be calculated for small areas like the 'Dong' level. Based on these points, this study calculated the apartment price index for Dongs. Additionally, the machine learning-based index can be used to analyze the impact of housing policies targeting subregions, which was difficult in the previous studies. For example, this study analyzes the impact of the sales price cap regulation in 27 Dongs in Seoul on the growth rate of the apartment price index and demonstrates that the regulation had a significant negative impact on the growth rate of apartment prices through a DID model. Therefore, the machine learning-based price index proposed in this study is an alternative that can compensate for the shortcomings of existing price index methodologies and can be used as a useful housing market indicator, especially in analyses that require high spatio-temporal resolution. 주택 가격지수는 주어진 시점의 주택시장 가격수준을 대표하는 값으로 개인이나 정부기관, 건설사와 같은 시장 참여자들에게 의사결정의 기초가 되는 지표이다. 따라서 정확한 주택 가격지수를 산출하기 위해 여러 방법론이 제시된 바 있다. 주택 가격지수 방법론들은 기반이 되는 데이터를 바탕으로 ‘실거래 기반 지수’와 ‘평가 기반 지수’로 분류할 수 있다. 실거래 기반 지수와 평가 기반 지수는 각기 장단점을 가지고 있다. 실거래 기반 지수는 시장에서 체결된 가격만으로 산출되기에 주택시장을 민감하고 정확하게 반영한다. 하지만 거래건이 분석 표본이 되기 때문에 소지역을 대상으로 하는 등 시공간적 해상도가 높아질수록 표본 부족으로 인해 지수가 불안정해질 수 있다. 반면 평가 기반 지수는 소지역 및 거래량이 부족한 시기에서도 안정적이다. 그러나 사람이 주택가격을 평가할 때 발생하는 평활화 및 이해관계 충돌의 문제로 인해 실제 시장 흐름과 다른 부정확한 수치가 산출될 수 있다. 한편 변동모수모형과 같이 평가 기반 지수와 동일한 종합주가지수 방식의 지수 산식을 사용하되 사람의 평가 가격이 아닌 실거래를 기반으로 한 통계모형의 추정치를 사용할 경우 앞선 두 방식의 단점을 보완할 수 있다. 그러나 초기에 제시된 변동모수모형은 다중회귀분석을 기반으로 각 횡단면 시점마다 구축하는 방식인데, 이 경우 함수 형태의 오지정 문제, 시공간적인 자기상관 효과를 설명하지 못하여 오차율이 상승하는 문제가 발생하게 된다. 최근 주목받고 있는 머신러닝 기법들은 고전적 통계모형과 달리 비모수적 기법으로서 변수 간 관계를 스스로 포착할 수 있다. 따라서 머신러닝을 통해 주택가격의 시공간적 효과를 적절히 모델링한다면, 모형 적합도를 개선하고 시점에 따른 주택가격의 최적합선을 도출할 수 있다. 본 연구의 구체적인 가설은 다음과 같다. 첫째, 머신러닝 모형은 주택의 거래시점과 주택의 위치라는 투입 정보를 통하여 주택 거래의 시공간적 분포와 거래가격 간의 관계를 적절히 모델링할 수 있다. 이를 밝히기 위해 본 연구에서는 주택가격과 머신러닝 모형 추정오차의 각각에 대해 시공간적 자기상관 지표를 산출함으로써 원본 가격에 비해 모형 추정오차에서 자기상관이 유의미하게 줄었음을 보였다. 둘째, 머신러닝 모형은 거래가 이루어지지 않은 시점에 대해서 만약 거래가 포착되었다면 형성되었을 잠재가격을 추정할 수 있다. 선행연구들은 주택의 거래가 매 시점 이루어지지 않기 때문에 실거래만으로 시가총액 기반과 같은 종합주가지수 방식의 지수를 산출할 수 없다고 언급하였으나, 실제 주가지수는 거래가 포착되지 않는 시점의 가격을 최종 체결가격의 연장선으로 대체하는 방식을 사용하고 있으므로 이와 동일한 방식을 적용한다면 주택 또한 실거래만으로 종합주가지수 방식 지수를 구축할 수 있다. 그러나 주식과 마찬가지로 체결가격의 연장선을 기반으로 할 경우, 주택 거래가 장기간 발생하지 않을 때 만일 거래가 이루어졌다면 형성되었을 잠재가격과의 차이가 벌어질 수 있다. 따라서 관측된 가격의 단순 연장선보다 모형을 통해 잠재가격을 더 정확히 추정할 필요가 있다. 이를 보이기 위해 학습 데이터에서 랜덤하게 분리되어 모형에 투입되지 않은 테스트 세트 거래건을 실제로 이루어지지 않은 잠재가격으로 가정하여, 훈련 세트의 단순 거래가격 연장선과 머신러닝 모형 추정가격 중 무엇이 잠재가격을 더 잘 추정하는지 비교하였다. 셋째, 머신러닝 모형 추정가격을 통해 산출한 주택 가격지수는 기존의 평가 기반 지수보다 시장 흐름을 더 정확히 반영하고, 시간 더미 지수와 달리 소지역 및 거래절벽 시기에도 더 안정적이다. 이를 확인하기 위해 머신러닝 모형 기반 가격지수를 구축하여 기존 가격지수와 비교하였다. 주택가격에 대한 자동평가모형(AVM)의 구축을 위해 국토교통부에서 제공하는 서울시 아파트 매매 실거래 데이터에 아파트 특성 데이터를 결합하여 데이터셋을 구축하고 인공신경망(ANN)과 LightGBM 모형을 학습하였다. 머신러닝 모형의 특징인 랜덤성을 줄이고 추정 정확도를 상승시키기 위해 모형 앙상블을 도입하였고, 모형 추정오차를 기반으로 최적 초매개변수 및 투입변수 조합을 탐색하였다. AVM 구축 결과, ANN에서 테스트 세트 MAPE 4.929%, LightGBM에서 4.608%, 그리고 두 모형의 평균으로 정의되는 Ensemble 모형에서 4.478%를 기록하였다. SHAP 분석을 통해 모형이 투입변수와 주택가격 간의 비선형적이고 복잡한 관계를 잘 묘사하고 있음을 확인하였으며, 시공간 자기상관 검정을 통해 원본 거래가격보다 머신러닝 모형 추정오차에서 유의미하게 자기상관이 감소하였음을 확인하여 모형이 주택가격의 시공간 효과를 잘 설명하고 있다는 점을 보였다. 또한, 훈련 세트에서의 아파트별 최종 실거래 체결가격과 테스트 세트 상 잠재가격의 차이보다 머신러닝 모형 추정가격과 잠재가격의 차이가 통계적으로 유의미하게 작다는 점을 확인했다. 따라서 머신러닝을 통해 주택가격의 시공간 분포를 모델링함으로써 거래가 이루어지지 않은 시점에 대한 잠재가격을 정확히 추정할 수 있는 AVM을 구축할 수 있었다는 점을 밝혔다. 학습된 AVM이 전수 아파트에 대해 매 시점 추정한 가격을 기반으로 머신러닝 기반 가격지수를 산출하였다. 본 연구에서는 시가총액 기반의 라스파이레스 지수, 가격 변동률의 기하평균으로 계산되는 제본스 지수를 각각 구축하였고, 이를 KB국민은행과 한국부동산원의 평가 기반 지수, 그리고 본 연구의 훈련 데이터로 자체 산출한 실거래 기반 시간 더미 지수와 비교하였다. 그 결과 머신러닝 기반 가격지수는 평가 기반 지수에 비해 장기간에 걸친 가격 변동률이 높았고, 시간 더미 지수와는 비슷한 흐름을 보였다. 한편 자치구 이하 단위의 소지역에서 시간 더미 지수는 거래량이 부족한 시기에 크게 요동치거나 거래 표본의 부족으로 지수가 집계되지 않았으나, 머신러닝 기반 지수는 안정적인 흐름을 보였다. 머신러닝 기법에 따라서는 LightGBM에 비해 ANN 기반 지수가 소지역에서도 매끄러운 흐름을 나타냈지만, ANN의 경우 시장 침체기에 일시적인 평활화 경향도 보였다. 반면 LightGBM은 거래량이 부족한 시기에 비교적 매끄럽지 않은 흐름을 보이기도 하였으나 시장 침체기의 가격 하락을 더 민감하게 잡아냈다. 두 모형의 평균으로서 추정 정확도가 가장 높았던 Ensemble 모형 기반 지수는 시장 침체기의 평활화 경향이 덜하면서, 거래 표본이 부족한 시기에도 LightGBM에 비해 자연스럽게 변동하는 경향을 보였다. 따라서 본 연구에서 제안하는 머신러닝 기반 가격지수는 기존에 발표되고 있는 평가 기반 지수에서 발생하는 평활화 문제를 해소하여 주택시장의 흐름을 더 정확하게 반영하면서, 시간 더미 지수보다는 안정적이고 소지역을 대상으로 분석할 수 있다는 장점을 가지고 있다. 이러한 점을 토대로 기존 외부기관에서는 발표되지 않는 소지역 단위인 동별 아파트 가격지수를 산출하였고, 그 결과 시간 더미 지수에 비해 안정적이면서 소지역의 이슈를 잘 반영하고 있음을 확인하였다. 이를 활용하면 기존 선행연구에서는 어려웠던 소지역 대상 부동산 정책이 주택가격 흐름에 미친 영향을 분석할 수 있다. 그 예시로 본 연구에서는 서울 27개 동에 적용된 민간택지 분양가 상한제가 동별 아파트 가격지수 상승률에 미친 영향을 분석하였으며, 이중차분모형을 통해 분양가 상한제가 유의미하게 아파트 가격 상승에 부정적인 영향을 미쳤다는 점을 알 수 있었다. 따라서 본 연구에서 제안하는 머신러닝 기반 가격지수는 기존 주택 가격지수 방법론들의 단점을 보완할 수 있는 대안으로서, 특히 소지역 하위시장 분석과 같이 높은 시공간 해상도를 요구하는 분석에서 유용한 주택시장 통계로 활용될 수 있을 것이다.
머신러닝을 활용한 중학교 수학 기초학력 미달 비율 예측모형 탐색
학교 교육은 모든 학생들이 소외받지 않고 각자의 재능을 계발하여 스스로 성장 및 발달하도록 지원하는 것을 목적으로 한다(유미경, 2016). 교육부는 국가수준 학업성취도 평가를 교육 성취 기준을 감독하고 점검하는 여러 가지 모니터링 체제 중 하나로써 규정하며, 그 시행 목적을 국가가 교육의 책무성을 준수하고 교육의 질을 관리하는 데 있다고 밝히고 있다(김명숙 외, 2001). 국가수준 학업성취도 평가는 우수학력, 보통학력, 기초학력, 기초학력 미달의 4개 수준으로 구분한다(김성열, 권은경, 2018). 기초학력 미달은 초등학교부터 시작된 학습 결손이 중학교, 고등학교로 이어지며 누적되는 것으로 인식되고 있다(임현정, 2009). 기초학력 미달로 인해 학업에 뒤처진 학생은 학교에 부적응하게 되고, 우울, 불안, 학교폭력, 따돌림 등 여러 가지 문제점에 노출되기도 한다. 또한 이러한 문제점은 졸업 후에도 사회 부적응의 원인으로 이어져 사회에서 소외되고 삶의 낙오자로 낙인찍히는 결과를 초래할 수도 있게 된다(황진숙, 2011). 교육부는 학교급이 올라갈수록 교육에 흥미를 잃는 학생의 증가를 예방하기 위해 학습부진 학생 조기 진단‧보정 기능을 강화하는 정책을 꾸준히 추진하고 있다. 하지만 이와 같은 노력에도 불구하고 2019년 교육부가 발표한 국가수준 학업성취도 평가결과를 살펴보면 우리나라의 기초학력 미달 학생 비율은 지속 증가 추세에 있다. 특히 중학교 수학의 기초학력 미달 비율이 11.1%로 가장 높았다(교육부, 2019). 학교 교육의 목적 달성을 위해 학생 차원의 기초학력 미달 요인분석 중심의 연구 한계를 극복할 수 있는 새로운 방식의 연구가 필요하였다. 즉, 학생을 둘러싼 학교 환경을 종합적으로 고려하면서 선제적인 교육정책의 적용이 가능한 예측분석 중심의 연구가 모색되어야 하였다. 이에 본 연구는 기존 선행연구가 학생이나 학교 수준에서 기초학력 미달 요인을 탐색하고 영향도를 분석하는 데 그쳤던 한계점을 극복하기 위해, 기초학력 미달 비율 예측모형을 개발하고 이를 활용해 현안문제 해결을 위한 예방적 접근이 가능한 방안을 제시하고자 하였다. 연구를 위해 국가수준 학업성취도 평가에 관한 선행연구, 기초학력 미달에 관한 선행연구, 머신러닝 분석 기법 선행연구에 대한 문헌고찰을 진행하였다. 국가수준 학업성취도 평가에 관한 선행연구는 주로 학업성취도 평가 자체가 학생들의 학습에 긍정적 또는 부정적인 영향을 끼치는지 여부를 분석하는 데 주로 초점을 맞춰왔다. 2010년대 초반부터는 학업성취도 평가결과에 대한 축적에 관심을 갖기 시작하였고, 막연하지만 축적된 데이터를 활용하여 학생들의 학습능력을 신장시키는 데 도움을 주는 방안을 탐색하였다. 우리나라도 이와 같은 흐름에 따라 최근 학업성취도 평가결과 데이터를 활용하여 학생의 학업성취도에 미치는 요인을 분석하고 있다. 하지만 국가 수준의 학업성취도 통계 데이터를 활용함에 있어, 분석기간이 1년 또는 3년으로 비교적 짧고, 분석대상도 표집평가 결과를 활용하는 등 종합적인 관점에서의 분석은 미흡한 상황이다. 기초학력 미달에 관한 선행연구는 주로 내용이론(content theory)를 기반으로 학생 차원의 기초학력 미달에 영향을 미치는 요인 분석이 주류를 이루고 있다. 이 범주의 논문들은 학생 요인, 교사 요인, 가정 요인이 기초학력 미달 개별 학생에 영향을 미치는 내용을 규명하고 더 나아가 이들 요인을 제거, 감소하거나 또는 강화시키는 연구를 수행하였다(유미경, 2016). 최근에는 학생 차원의 연구범주를 학교 차원, 교육청 차원으로 확대하고 있고, 학생 개인의 동기유발 요인을 분석하는 내용이론 뿐만 아니라 상황이론(contingency theory)에 기반하여 학교가 처한 상황조건에 적합한 조직구조와 관리방식을 취해야 기초학력 미달 비율 개선에 효과성이 증대된다는 연구들도 증가하고 있다(유미경, 2016). 즉, 상황이론에 기초한 연구들은 학교 차원 또는 교육청 차원의 교육활동 및 교육 환경이 기초학력에 영향을 준다는 입장을 취하고 있다. 학교 차원의 교육활동, 교과 내용 등 학교활동 요인이 직접적으로 기초학력에 영향을 주며, 학교여건 요인, 교육청 요인 등의 상황 요인이 간접적으로 기초학력에 영향을 미친다는 통합적 차원의 접근 방법이다(Symonds, 2004). 한편 머신러닝에 관한 선행연구를 통해 개념을 살펴보면, 머신러닝은 사전에 프로그램 되어있지 않은 컴퓨터가 데이터로부터 패턴을 학습하여 이후 새롭게 입력되는 데이터에 대해 적절한 작업을 수행하는 일련의 처리 과정을 의미한다. 이 과정에서 컴퓨터가 입력 값을 처리하는 방법을 예측모형이라고 부른다. 머신러닝의 주목적은 기존 데이터의 패턴을 학습하여 새로운 데이터에 적합한 처리 과정을 제공하는 것이고, 머신러닝은 학습 데이터에 종속변인이 있는 경우 지도학습 방식을 활용한다. 지도학습 방식은 분류와 예측 알고리즘을 활용하여 예측모형을 개발하게 된다. 머신러닝은 학습데이터를 기반으로 만들어진 예측모형을 활용해 새로운 데이터를 처리하거나 결과를 예측하는 데 매우 유용할 수 있다(오미애 외, 2017). 본 연구는 선행연구의 시사점을 반영하여 머신러닝을 활용한 중학교 수학을 대상으로 기초학력 미달 비율 예측모형을 개발하고자 하였다. 이를 위해 연구모형을 구성하였다. 연구모형은 기초학력 미달에 영향을 미치는 요인으로 크게 학생요인, 교사요인, 학교요인, 교육청요인을 구분하였고, 각 요인별 하위요인으로 11개를 구성하였다. 학생요인의 4개 하위요인은 학부모 지원, 방과후학교 참여정도, 남녀학생 비율, 독서향유 정도였고, 교사요인의 하위요인은 교수방법(교사 전문성)이었다. 학교요인의 5개 하위요인은 방과후학교 프로그램 제공, 학생 1인당 교육비, 학급당 학생수, 교사당 학생수, 주요 교과 시수로 구성하였고, 마지막 교육청요인의 하위요인은 방과후학교 지원비로 구성하였다. 예측모형 구현을 위해 11개 영향요인 측정을 위한 데이터를 수집하였다. 데이터 수집은 교육부와 한국교육학술정보원이 운영하는 에듀데이터 서비스 시스템을 이용하였다. 수집한 데이터는 분석을 위해 결측치 제거 등 전처리 과정을 진행하였다. 전처리 완료된 분석대상 데이터는 학습데이터(2009년~2016년)와 시험데이터(2017년)로 구분하였다. 예측모형 개발을 위해 학습데이터와 시험데이터의 종속변인을 범주화하였다. 범주화는 머신러닝 알고리즘이 학습데이터를 학습하여 예측모형을 개발할 수 있도록 종속변인인 기초학력 미달 비율의 평균값과 중위값을 기준으로 미달 비율이 높은 학교와 낮은 학교를 구분하는 것이다. 평균값(6.0799%)과 중위값(4.7619%)으로 범주화한 학습데이터는 정보획득 지수 분석을 실시하여 기초학력 미달 비율이 높은 학교와 낮은 학교 간의 차이에 영향을 미치는 주요 변인을 확인하고, 기초학력 부진 개선을 위한 시사점을 도출하였다. 이후 범주화 완료한 학습데이터는 Bayes Net 등 11개 머신러닝 알고리즘에 입력하여 예측모형을 만드는 데 활용하고 시험데이터는 예측모형의 예측유효성을 검증하는 데 활용하였다. 중학교 수학 기초학력 미달 비율이 높은 학교의 판단기준을 마련하기 위해서 학습데이터와 시험데이터를 대상으로 중학교 수학 기초학력 미달 비율 평균값과 중위값을 분석하였다. 전체 16개 속성에 대한 관측수, 평균값, 중위값, 표준편차, 첨도, 왜도를 분석하였다. 학습데이터를 분석한 결과 2009년부터 2016년까지 전수평가 기간 수학 기초학력 미달 비율은 평균값이 6.0799%이고 중위값은 4.7619%이었다. 왜도는 2.2725로 최빈값이 평균값과 중위값 보다 작은 값을 가지고 있고, 첨도는 9.7932로 기준값인 3보다 크므로 최빈값이 정규분포 보다 높이가 높은 형태였다(홍종선, 1996; Triola, 1992). 머신러닝을 활용해서 중학교 수학 기초학력 미달 비율이 높은 학교의 특징을 식별하기 위해서 앞선 기술통계 분석결과로 얻어진 학습데이터의 중학교 수학 기초학력 미달 비율 평균값과 중위값을 기준으로 학습데이터를 분류하고 정보획득 지수(IG) 분석을 실시하였다. 평균값(6.0799%)을 기준으로 범주화된 학습데이터를 분석하여 변인별 영향력을 분석하였다. 분석결과 기초학력 미달 비율이 높은 학교와 낮은 학교를 구분할 수 있는 주요 영향력 변인은 학생당 방과후학교 지원비, 학생당 기간제교사수, 남녀학생수 비율, 급식비 지원 학생수 비율 순이었고, 영향력이 높은 변인별로 평균값 차이 검증을 진행하여 시사점을 도출하고자 하였다. 이를 위해 주요 변인별 기초학력 미달 비율이 낮은 학교와 높은 학교의 학생 1인당 평균을 계산하고 t검정을 실시하였다. 분석결과 기초학력 미달 비율이 높은 학교는 낮은 학교 보다 학생당 방과후학교 지원비 비율이 낮았고(103,412원/학생 1인당), 학생당 기간제교사수가 적었다(0.0079명/학생 1인당). 또한 여학생수 비율이 낮았고(0.4328명/학생 1인당), 급식비 지원 학생수 비율이 높았다(0.541명/학생 1인). 다음으로 중위값(4.7619%)을 기준으로 범주화된 학습데이터를 분석하여 변인별 영향력을 분석하였다. 분석결과 기초학력 미달 비율이 높은 학교와 낮은 학교를 구분할 수 있는 주요 영향력 변인은 학생당 방과후학교 지원비, 학생당 학교예산, 남녀학생수 비율, 방과후학교 프로그램 참여학생수 비율 순이었고, 영향력이 높은 변인별로 구분하여 평균값 차이 검증을 진행하여 시사점을 도출하고자 하였다. 이를 위해 주요 변인별 기초학력 미달 비율이 낮은 학교와 높은 학교의 학생 1인당 평균을 계산하고 t검정을 실시하였다. 분석결과 기초학력 미달 비율이 높은 학교는 낮은 학교 보다 학생당 방과후학교 지원비가 적었고(96,998원/학생 1인당), 학생당 학교예산(1,719,806원/학생 1인당)도 적었다. 또한 여학생 비율이 낮았고(0.4433명/학생 1인당), 방과후학교 프로그램 참여학생수 비율도 낮았다(0.8329명/학생 1인당). 머신러닝을 활용해서 중학교 수학 기초학력 미달 비율이 높은 학교를 예측하기 위해서 앞선 기술통계 분석결과로 얻어진 학습데이터의 중학교 수학 기초학력 미달 비율 평균값과 중위값을 기준으로 예측모형을 개발하였다. 예측모형은 11개 주요 머신러닝 알고리즘별로 평균값과 중위값으로 범주화된 학습데이터를 입력하여 각 2개씩 총 22개를 개발하였다. 먼저 머신러닝 알고리즘이 평균값으로 범주화된 학습데이터를 학습하여 개발한 예측모형 11개의 분류정확도(Accuracy)를 측정한 결과는 IBk, KStar, Random Forest가 1.0으로 가장 높았고, 다음으로 J48(0.735), Part(0.703), Bayes Net(0.672), Multilayer Perceptron(0.633), Simple Logistics(0.625), SMO(0.61), ZeroR(0.61), Naive Bayesian(0.43) 순으로 분류정확도가 높았다. 예측유효성(ROC area)을 측정한 결과는 Random Forest(0.74), Part(0.721), Multilayer Perceptron(0.707), Simple Logistics(0.682), J48(0.668), Bayes Net(0.663), Naive Baysian(0.585), KStar(0.568), IBk(0.553), SMO(0.5), ZeroR(0.5) 순으로 예측유효성이 높았다. 이어서 예측유효성이 가장 높았던 Random Forest 알고리즘 기반 예측모형 최적화를 진행하였다. Random Forest 알고리즘은 대표적인 앙상블 분류기법으로서 학습과정에서 생성한 다수의 트리형태의 분류기들을 경쟁시켜 가장 신뢰도 높고 안정적인 예측모형을 만들어내는 기법이다(Duda, 2002; Lepetit&Fua, 2006). Random Forest 최적화 방법 중 하나는 분류기 수를 결정하는 반복횟수를 조정하는 것이다. 실험결과, 반복횟수를 100회로 설정하고 속성데이터 중 급식비 지원 학생수 비율을 제외할 경우 예측유효성은 0.763으로 가장 높았다. 이어서 머신러닝 알고리즘이 중위값으로 범주화된 학습데이터를 학습하여 개발한 11개 예측모형의 분류정확도(Accuracy)를 측정한 결과는 IBk, KStar, Random Forest가 1.0으로 가장 높았고, 다음으로 J48(0.711), Part(0.659), Bayes Net(0.647), Multilayer Perceptron(0.613), Simple Logistics(0.591), SMO(0.583), Naive Bayesian(0.522), ZeroR(0.504) 순으로 분류정확도가 높았다. 예측유효성(ROC area)을 측정한 결과는 Random Forest(0.752), J48(0.661), Part(0.645), Multilayer Perceptron(0.64), Bayes Net(0.626), KStar(0.616), Simple Logistics(0.606), SMO(0.585), IBk(0.569), ZeroR(0.5), Naive Baysian(0.469) 순으로 예측유효성이 높았다. 이어서 예측유효성이 가장 높았던 Random Forest 알고리즘 기반 예측모형 최적화를 진행하였다. 실험결과, 반복횟수를 60회로 설정하고 속성데이터 중 학급당 학생수 비율을 제외할 경우 예측유효성은 0.774로 가장 높았다.
다분 문항 검사에서 설명적 부분점수모형과 머신러닝 모형 간의 문항 난도 추정 정확성 비교
학생들의 학습 결과를 보다 정확히 평가하고 예측하기 위해 피험자의 배경 요인 및 문항 관련 특성을 활용한 평가 결과를 제시하는 것의 필요한만큼, 피험자 및 문항에 관한 정보를 활용하여 평가 결과를 분석하는 방법에 관한 연 구와 관련 모형의 개발이 지속적으로 이루어지고 있다. 특히, 설명적 문항반응모형(explanatory item response model, EIRM)은 피험자 및 문항의 특성, 각 특성 간의 상호작용 효과를 모형에 포함하여 데이터를 분석함으로써 평가 결과에 대해 종합적으로 해석할 수 있도록 한다는 측면에서 활용성이 높다고 할 수 있다. 한편, 머신러닝(machine learning)은 효율적이고 정확한 예측 알고리즘의 데이터 기반 접근법으로서 문항 난도 및 피험자 응답 등과 같은 교육 평가 분야의 데이터를 분석하는 데에도 활용될 가능성이 있다. 이에 따라, 최근 에는 머신러닝 모형과 문항반응모형을 결합하거나, 추정 결과를 비교하는 등 의 연구도 이루어지고 있으나, 주로 이분 문항 유형 검사 상황을 가정하고 있으며, 설명적 문항반응모형 및 머신러닝 모형 간의 추정 정확성을 비교한 연 구는 상대적으로 제한적이라고 할 수 있다. 이에 본 연구는 다분 문항으로 구성된 검사에서 설명적 부분점수모형(step difficulty explanatory linear partial credit model)과 머신러닝 모형(랜덤 포레스트, 그래디언트 부스팅)의 문항 난도 추정 정확성을 분석 및 비교하고자 하였다. 본 연구를 통해 다분 문항 반응 데이터를 기반으로 문항 난도를 예측하는 데 있어 두 접근 방식의 성능을 평가하고, 각 모형의 장단점을 파악하고자 하였다. 이를 위해 본 연구에서는 언어적 공격성(verbal aggression) 검사 데이터를 분석에 활용하였으며, 문항 난도 추정치와 실제 문항 난도 간의 상관 (correlation)과 평균제곱오차(mean squared error, MSE)를 산출하여 두 모형 간의 추정 정확성을 비교하였다. 이에 따른 연구 결과는 다음과 같다. 먼저, 설명적 부분점수모형과 랜덤 포레스트 모형, 그래디언트 부스팅 모형의 문항별 단계 난도 추정치와 실제 단계 난도 간의 상관계수를 분석한 결과, 전반적으로 1단계와 2단계 난도에서 모든 모형의 상관계수가 0.9 이상으로 높은 것으로 나타났다. 또한, 설명적 부분점수모형과 랜덤 포레스트 모형, 그래디언트 부스팅 모형의 문항별 단계 난 도 추정 정확성을 파악하기 위해 각 모형의 평균제곱오차를 비교한 결과, 1단계와 2단계 난도에서 모든 모형의 평균제곱오차가 0.2 미만으로 낮게 나타났다. 이는 머신러닝 모형과 설명적 부분점수모형의 예측 정확성이 우수하고 추정 오차가 적다는 것을 의미한다. 설명적 부분점수모형의 경우, 기존 부분점수 모형에 비해 추정한 문항 모수의 개수가 적었음에도 불구하고 높은 추정 정확성을 보였다는 점에서 문항 수가 적은 경우에도 비교적 정확하게 문항 난도를 추정할 수 있다는 가능성이 있다고 할 수 있다. 본 연구를 통해 다분 문항으로 구성된 검사 상황에서 문항 난도를 추정하고 예측하는 데 있어서 설명적 문항반응모형과 머신러닝 모형의 활용 가능성을 탐색하고 예측 정확성을 비교함으로써, 다분 문항 검사 조건에서 문항 난도를 예측하고 추정하는 데 있어서 적합한 모형을 선택하는 데 도움을 줄 수 있을 것이다. 주제어: 다분문항반응모형, 설명적 문항반응모형, 설명적 부분점수모형, 머신 러닝 To more accurately assess and predict students' learning outcomes, research and the development of models leveraging background factors of examinees and item characteristics for analyzing assessment results have been continuously conducted. In particular, the explanatory item response model (EIRM) has demonstrated its utility by incorporating examinee and item characteristics, as well as their interaction effects, into the model to provide a comprehensive interpretation of assessment results. Meanwhile, machine learning, as a data-driven approach capable of efficient and accurate predictive algorithms, shows potential for application in educational assessment, particularly in analyzing data such as item difficulty and examinee responses. Consequently, recent studies have explored integrating machine learning models with item response theory (IRT) or comparing their estimation outcomes. However, most of these studies have been limited to dichotomous item formats, and comparisons of estimation accuracy between EIRM and machine learning models remain relatively scarce. Regarding this, this study aimed to analyze and compare the accuracy of item difficulty estimation using the step difficulty explanatory linear partial credit model (LPCM) and machine learning models (random forest and gradient boosting) in assessments composed of polytomous items. By evaluating the performance of these two approaches based on polytomous item response data, this study sought to identify the strengths and limitations of each model. To this end, data from a verbal aggression assessment were analyzed, and the correlation between estimated and true item difficulty, as well as mean squared error (MSE), was calculated to compare the estimation accuracy of the two models. The findings of this study are as follows. First, analyzing the correlation between the step difficulty estimates of the LPCM, random forest, and gradient boosting models and the true step difficulty values revealed that all models demonstrated high correlations above 0.9 for both the first and second step difficulties. Additionally, a comparison of the MSE for step difficulty estimation accuracy across the three models showed that the MSE for all models remained below 0.2 for both steps, indicating excellent predictive accuracy and minimal estimation error for the machine learning models and LPCM. Notably, despite requiring fewer item parameters than the traditional partial credit model, the LPCM demonstrated high estimation accuracy, suggesting its potential for accurately estimating item difficulty even when the number of items is limited. Through this study, the applicability and predictive accuracy of EIRM and machine learning models for estimating and predicting item difficulty in assessments with polytomous items were explored and compared. The findings provide practical insights into selecting appropriate models for predicting and estimating item difficulty under polytomous assessment conditions. Keywords: Polytomous Item Response Model, Explanatory Item Response Model, Step Difficulty Explanatory Linear Partial Credit Model, Machine Learning
머신러닝과 잠재성장모형의 상보적 활용을 통한 대학생활적응 종단분석
신민경 서울여자대학교 일반대학원사회계열 2026 국내박사
This study aims to examine the longitudinal patterns of college adjustment and to identify key factors influencing its development over time. Rather than conceptualizing college adjustment as a static outcome measured at a single time point, this study frames adjustment as a dynamic developmental process that unfolds throughout students’ college years. Methodologically, this study emphasizes the complementary application of machine learning and latent growth modeling, rather than a direct comparison between analytical approaches. The data were drawn from the Korean Education Longitudinal Study 2005 (KELS2005), using four survey waves conducted during participants’ college years (2011, 2012, 2014, and 2016). The analytic sample consisted of students with confirmed college enrollment experience. To address the asynchronous nature of panel responses, the longitudinal dataset was reconstructed based on a relative time framework at the individual level. College adjustment was operationalized as a composite index derived from measures of college adjustment, sense of belonging, and college satisfaction. The analytical procedure consisted of three stages. First, Random Forest and XGBoost models were applied to estimate variable importance for predicting the level of college adjustment. Variables that consistently demonstrated high importance across both algorithms were selected as core predictors. In this stage, machine learning was employed not to maximize predictive accuracy per se, but as a methodological tool for identifying salient predictors in high-dimensional longitudinal data. Second, the selected predictors were simultaneously incorporated into machine learning models and latent growth models using the same longitudinal dataset. Third, the results were interpreted in an integrative manner, focusing on how predictors functioned differently in prediction-oriented and change-oriented analyses. The results indicated that perceptions of college climate, self-concept–related psychological characteristics, and academic-related factors were strongly associated with the initial level of college adjustment. Latent growth modeling revealed that college climate exerted a positive effect on the initial level of adjustment but a negative effect on the rate of change, suggesting a stabilization pattern among students who began college with higher adjustment levels. In contrast, self-concept–related variables demonstrated sustained effects over time, contributing to the maintenance of college adjustment throughout the college years. Machine learning analyses consistently identified these variables as strong predictors of college adjustment, highlighting both overlap and functional differentiation between predictors of adjustment levels and determinants of developmental trajectories. This study extends the methodological scope of college adjustment research by linking machine learning–based variable selection with latent growth modeling of developmental change. By demonstrating how key predictors operate differently depending on analytical purpose, this study provides a refined longitudinal understanding of college adjustment and offers empirical implications for timing-sensitive and targeted student support strategies in higher education.
머신러닝과 재해예방사업 효과를 이용한 결합형 호우피해 예측모형 개발
If the damage caused by heavy rain can be predicted in advance and appropriately prepared for the disaster, it will be possible to reduce loss of life and damage of property very effectively. For this purpose, the previous studies have developed heavy rain damage prediction models intermittently but mostly linear regression analysis was used for the model development. Therefore, this study tried to develop a combined heavy rain damage prediction models that considers the machine learning and effects of disaster prevention projects in order to increase predictive performance of the models. Say, the model that can predict the residuals of a linear regression model using machine learning techniques such as decision tree, random forest, support vector machine, and deep neural network was constructed. In addition, the model that can consider the effect of flood damage reduction by disaster prevention projects was developed. The Gyeonggi-do province where the heavy rain damages were most frequently occurred in South Korea was selected as the study area. Heavy rain Damage Prediction Model(HDPM) based on linear regression analysis was firstly constructed by using heavy rain damages from 1988 to 2017 as dependent variable and rainfall data as independent variable. The prediction accuracy of HDPM was 58.05%. The residuals, which are difference between actual damage and predicted damage derived from HDPM, were used as the dependent variables and the data for socio-economic characteristics of the study region were used as independent variables for the development of the residual prediction model(Model 1) based on machine learning. The HDPM and Model 1 is combined. We call this Combined Heavy rain Damage Prediction Model 1(CHDPM-1) and the prediction accuracy was in the range of 60.40 ~ 64.09%. In particular, the support vector machine based model showed the highest predictive accuracy. The damages from the similar rainfall intensities occurred before and after the disaster prevention projects were compared for the estimation of flood damage reduction effect. This effect was used as dependant variable and the cost of disaster prevention projects was used as independent variable for the development of Model 2 based on machine learning. The CHDPM-1 and Model 2 is combined. We call this Combined Heavy rain Damage Prediction Model 2(CHDPM-2) and the prediction accuracy was 66.44 ~ 67.45%. The random forest based model showed the highest predictive accuracy. Summarizing the results, we firstly developed CHDPM-1 by combining the residual analysis to make up for linearity of HDPM and the socio-economic factors. Then, CHDPM-2 considering the damage reduction effect of disaster prevention projects was developed to improve the prediction performance and accuracy of the model. Therefore, the developed model in this study could be used for the decision making of the public officials in the local governments. Nonetheless, since the prediction of disaster damage by natural phenomena involves a lot of uncertainties, the methodology that can minimize the uncertainty should be continuously studied and developed. 호우로 인한 피해를 사전에 예측하여 적절한 대비를 할 수 있다면 매우 효과적으로 인명과 재산피해를 저감할 수 있을 것이다. 이를 위해 호우피해 예측모형에 관한 연구들이 간헐적으로 수행되어 오긴 했지만, 주로 선형회귀모형을 이용하였다. 따라서 본 연구에서는 모형의 예측 성능을 높이기 위해 머신러닝과 재해예방사업의 효과를 고려한 결합형 호우피해 예측모형을 개발하고자 하였다. 머신러닝 기법으로 의사결정나무, 랜덤포레스트, 서포트 벡터 머신, 심층 신경망 등을 이용하여 기존 선형회귀모형의 잔차를 예측할 수 있는 모형을 구축하였고, 이와 함께 재해예방사업의 피해저감 효과를 고려할 수 있는 모형을 개발하였다. 대상지역은 호우피해가 가장 빈번하게 발생한 경기도 지역을 선정하였다. 1988년부터 2017년까지의 호우피해액을 종속변수로 하고, 강우자료를 독립변수로 하는 선형회귀모형 기반의 호우피해 예측모형(Heavy rain Damage Prediction Model, HDPM)을 우선 구축하였으며, 예측 정확도는 58.05%였다. 모형의 성능 개선을 위해 실제 피해액과 HDPM에 의한 예측 피해액의 차이인 잔차를 종속변수로 하고, 지역의 사회·경제적 특성을 독립변수로 하는 머신러닝 기반의 잔차 예측모형(Model 1)을 개발하였다. 기존의 HDPM에 Model 1을 추가한 결합형 호우피해 예측모형 1(Combined Heavy rain Damage Prediction Model 1, CHDPM-1)의 예측 정확도는 60.40~64.09%로 기존 모형에 비해 정확도가 향상 되었다. 특히, 서포트 벡터 머신 기반의 Model 1을 사용할 때 가장 높은 예측 정확도를 보였다. 또한 재해예방사업의 피해저감 효과를 고려하기 위해 사업 전·후의 유사한 강우강도로 인한 피해를 비교해 피해저감 효과를 종속변수로 사용하고, 재해예방사업비를 독립변수로 하는 머신러닝 기반의 피해저감 효과 예측모형(Model 2)을 개발하였다. CHDPM-1에 Model 2를 추가한 결합형 호우피해 예측모형 2(CHDPM-2)를 개발하였고, 예측 정확도는 66.44~67.45%로 성능이 향상되는 것을 확인하였다. 랜덤포레스트 기반의 Model 2를 이용하여 CHDPM-2를 개발하는 것이 가장 높은 예측 정확도를 보였다. 결과를 종합해 보면, HDPM의 선형성을 보완하기 위해 잔차 분석을 수행하여 사회·경제적 요소와 결합함으로써 모형의 성능을 향상 시킬 수 있는 CHDPM-1을 제시하였고, 여기에 재해예방사업의 피해저감 효과를 고려함으로써 CHDPM-2를 개발하였다. CHDPM-2는 HDPM과 CHDPM-1의 과대 예측하는 경향을 개선하여 모형의 예측 정확도 성능을 고도화하였다. 따라서 본 연구에서 개발한 호우피해 예측모형은 재난 담당자들의 의사결정을 위한 기초 자료로 활용될 수 있을 것으로 판단된다. 그럼에도 불구하고, 자연현상에 의한 재난 피해를 예측한다는 것은 수많은 불확실성을 내포하고 있기 때문에 이러한 불확실성을 최소화할 수 있는 방법론이 지속적으로 연구되고 개발되어야 할 것으로 생각된다.
머신러닝 기반의 지역 특성에 따른 군집별 호우피해 예측 모형 개발
Currently, the world is experiencing severe natural disasters due to unpredictable hydro-meteorological changes, with damage caused by heavy rainfall being particularly severe. It is reported that 45% of the damage from natural disasters is due to heavy rain. In South Korea, heavy rain advisories and warning are issued to mitigate the damage, but they are issued uniformly nationwide based on a certain rainfall intensity values without considering regional characteristics. This makes the areas with different rainfall patterns still suffer from heavy rain damage. Moreover, issuing only advisories and warnings prevents the public from understanding the quantitative scale of the damage and its seriousness. Therefore, this study aimed to develop a model for predicting quantitative damage due to heavy rain. To achieve this, cluster analysis was conducted for 229 administrative districts based on the maximum rainfall intensity and the damage and the regions were grouped by regional characteristics of the damage and rainfall. Then the models were developed to predict the heavy rain damage for grouped regions. This study improved the previous cluster analysis and statistical prediction model by using hierarchical cluster analysis and machine learning models. Models such as linear regression, random forest, deep neural networks, long short-term memory, and decision trees were utilized for developing the heavy rain damage prediction model. As machine learning models vary significantly in generalization performance depending on hyperparameter settings, genetic algorithms were used for optimization. Cluster analysis was conducted using the damage and maximum rainfall intensity data of 2013, 2014, 2017, and 2020, resulting in three clusters. Additionally, hydro-meteorological data and related variables were used as independent variables for developing the heavy rain damage prediction model. The results predicted by the models were evaluated using the NRMSE metric. In clusters 1 and 2, the long short-term memory model showed the best performance with NRMSE values of 0.085 and 0.093, respectively. However, in cluster 3, the random forest model demonstrated superior result with an NRMSE value of 0.109. Therefore, it is believed that the machine learning based heavy rain damage prediction models developed in this study can significantly contribute to mitigating damage caused by heavy rain and to managing the disaster. 현재 전 세계는 예측할 수 없는 기상이변으로 인해 극심한 자연재난의 피해 를 겪고 있는데 특히, 피해액 중 45%를 차지하고 있는 호우에 의한 피해가 가 장 심각한 것으로 보고되고 있다. 우리나라는 호우피해 저감을 위해 호우특보를 발령하고 있다. 그러나 지역적 특성을 고려하지 않고, 단순히 특정 강우강도 값 을 기준으로 전국에 일률적으로 발령하고 있어 지역에 따라서 여전히 호우피해 가 발생하고 있다. 또한, 단순히 주의보와 경보만을 발령하고 있기 때문에 국민 들은 정량적인 피해 규모를 알 수 없으며 피해에 대한 심각성을 인지할 수 없 다. 따라서 본 연구에서는 정량적인 호우피해 예측을 위한 모형을 개발하고자 하였다. 이를 위해 호우피해액과 최대 강우강도를 토대로 전국 229개 행정구역 에 대한 군집분석과 누적강우에 따른 피해액의 범주를 설정하고, 군집된 지역별 호우피해를 예측할 수 있는 모형을 개발하였다. 기존의 주관적인 군집분석과 통 계학적인 호우피해 예측 모형을 개선하고자 머신러닝 기반의 계층적 군집분석 을 수행하였고, 호우피해 예측 모형 개발을 위해 선형회귀, 랜덤 포레스트, 심층 신경망, 장단기메모리, 의사 결정나무 등의 모형들을 이용하였다. 머신러닝 모형 의 경우 하이퍼 파라미터의 설정에 따라서 모형의 일반화 성능이 크게 차이가 발생하기 때문에 이를 최적화하기 위한 기법으로 유전 알고리즘을 이용하였다. 군집분석 결과, 3개의 군집이 도출되었으며, 호우피해 예측모형 개발을 위해 수 문기상자료와 관련된 변수들을 독립변수로 활용하였다. 최종적으로 모형들로부 터 예측된 결과에 대해 NRMSE 평가지표를 활용하여 평가하였다. 군집1과 군 집2에서는 각각 0.085와 0.093의 NRMSE 값이 산정된 장단기메모리 모형이 우 수함을 보였다. 그러나 군집3에서는 NRMSE 값이 0.109인 랜덤포레스트 모형이 우수한 결과를 보여주었다. 따라서 본 연구를 통해 개발된 머신러닝 기반의 군 집별 호우피해 예측모형을 재난관리 차원에서 활용하게 된다면 지역별로 호우 에 의한 피해를 저감시키는데 큰 기여를 할 수 있을 것이라고 판단된다.
우리나라 양파 가격 안정화 방안에 관한 연구 : 산지가격의 인과성 분석과 딥러닝을 활용한 가격예측을 중심으로
농산물은 복잡한 유통구조와 날씨의 영향을 많이 받는 특성상 공급 불안정성이 내재하여 있으며 수요의 가격탄력성이 낮아 작은 공급변화에도 가격 변동성이 크게 나타난다. 이러한 원인 때문에 농산물은 2∼3년을 주기로 가격의 폭락과 폭등이 자주 발생하고 있다. 정부에서는 이러한 불안정한 농산물 가격 문제를 해결하고자 다양한 정책의 시행과 가격 예측을 하는 등의 노력을 하고 있다. 하지만 이러한 노력에도 불구하고 국내 농산물 가격 변동성은 미국, 일본 등의 국가와 비교할 때 매우 높은 편으로 정책의 효과성이 미흡한 편이다(김동환·류상모, 2016). 또한, 여전히 농산물 유통의 비효율성과 수급 불안으로 인해 가격의 급등락이 여러 번 발생하여 농가의 소득안정과 소비자의 가계 운영에 많은 어려움이 따르고 있다(감사원, 2017). 그중에서도 한국의 대표 조미채소 중 하나인 양파는 산지에서의 가격 형성기능이 미약하고, 수확기 출하 물량이 도매시장에 일시에 집중되면서 가격 등락 폭이 더욱 심화되고 있다(농림축산식품부, 2019). 따라서 양파를 비롯한 국내 농산물 가격안정화문제 해결을 위해 다양한 정책과 이와 관련된 연구가 필요한 시점이다. 본 연구의 목적은 국내 대표 조미채소 중 하나인 양파를 대상으로 가격안정화방안을 마련하는 것에 있다. 이를 위해 양파의 산지 가격을 권역별로 나누어 인과관계를 규명하여 가격선도를 이끄는 지역이 어디인지를 파악하고, 양파가격을 예측하여 농산물 가격 안정화 정책에 기반이 되는 연구를 하고자 한다. 먼저 양파가격이 산지 간의 어떤 인과성을 갖고 있으며, 가격선도가 일어나는 곳을 알아보기 위해 VAR 분석을 진행하였다. 분석 결과, 우리나라 최대 양파 주산지인 전라권(전남, 전북, 광주)이 산지 가격을 주도하는 것이 아닌 경상권(경남, 경북, 대구)에서 산지 가격을 주도하는 것으로 나타났다. 이런 원인으로는 다양한 원인이 있을 것이지만 양파의 유통구조 상의 특징에서 찾을 수 있다. 산지에서 출하된 양파는 대부분 가락시장이나 대구 공판장을 통해 가격이 형성되기 때문에 대구 공판장과 비교적 거리가 가까운 경상권의 가격이 타 권역에 영향을 미치는 것으로 추정되었다. 또한, 양파는 다른 농산물과 비교하여 저장성이 강해 생산량 대비 저장 비율이 높은 품목이다. 김성우 외(2016)에 의하면 국내 양파 저장업체의 현황은 경상권 445개 전라권 304개로 경상권의 저장업체 수가 더 많았다. 양파 저장업체 수가 해당 산지권역에 많이 분포되었다는 것은 산지가격에 반응하기 위한 충분한 시간적 여유가 있다는 것을 의미한다. 또 정현우 외(2017)에 의하면 전라도 지역의 농업생산기반시설이 경상도 지역보다 전반적으로 취약한 것으로 나타났다. 농업생산기반시설이 취약하다는 것은 양파품질 및 감모율에 영향을 미치기 때문이다. 다음으로 양파가격의 예측력을 향상하기 위해 구조모형과 머신러닝을 이용하여 양파의 도매시장 가격 예측력을 향상할 수 있는 모델을 구축하였다. 예측력 향상을 위한 예측모형 개발을 위해 양파 중기선행 관측모형을 구축하고 이를 월별로 재생산하여 단기 예측모형을 결합함으로써 일반 단기모형과 중기선행관측모형을 결합한 모형의 예측성을 분석했다. 머신러닝 분석에 양파 중기모형의 값을 반영하는 것은 머신러닝이 양파가격 예측을 위한 학습을 할 때 사전적 정보를 가지고 분석을 하는 것에 있어 중요한 의미가 있다. 분석결과 양파의 중기선행관측모형의 추정치 정보를 반영한 모형의 예측력이 더 높게 나타났다. 또한 머신러닝의 분석 성능에 대한 평가 지표로서 MAE, RMSE, MAPE를 활용하였다. 평가 결과 양파의 중기모형 정보를 반영한 LSTM모형과 반영하지 않은 LSTM모형의 가격 예측의 오차율은 각각 17.5%, 20.2%로 중기모형을 반영한 LSTM모형은 비교적 정확한 예측을 하는 것으로 나타났다. 반면, 중기모형을 반영하지 않은 LSTM모형은 비교적 합리적 예측을 하는 것으로 나타났다. 두 연구를 종합해 볼 때 향후 양파의 가격에 영향을 미치는 재고량에 관한 연구가 필요하다. 양파는 저장성이 강해 중·만생종은 수확기 저온저장 하여 9월 하순부터 출하되며, 매년 전체 생산량의 약 50∼60%가 저장되어 출하되고 있다. 본 연구에서는 양파의 재고량을 추정하여 예측 변수에 반영하였지만, 선행연구를 볼 때 재고량을 중심으로 한 연구는 많지 않다. 또 재고량의 경우 민간업체가 대부분 관리하여 정확한 물량 파악이 어려운 실정이다. 양파 가격안정화를 위해 다양한 노력이 필요하지만, 양파의 수급과 가격안정 체계를 효과적으로 이루기 위해서는 민간 저장업체의 적극적인 참여가 필요하다. 그리고 도매시장을 포함한 다양한 출하 장려금의 지원과 낙후된 저장창고 시설을 현대화하는 등의 서비스 제공을 검토할 필요가 있다. 정부와 지자체의 역할과 본 연구 결과를 기초로 양파 가격안정화 사업과 정책계획 수립에 있어 기초자료로 이용될 수 있을 것으로 기대한다. Unstable supply is inherent in Agricultural products due to complex distribution structure and its characteristics of being greatly affected by weather, and price fluctuation occurs often even with small changes in supply due to low price elasticity of demand. With these reasons, price slump and jump of agricultural products occur very often every two to three years. To solve the problem of this unstable price of agricultural products, the government is making effort such as implementing various policies and predicting prices. Despite these efforts, however, price fluctuation of domestic agricultural products is very high compared to that of USA and Japan and the effectiveness of policies are not sufficient (Kim Donghwan, Ryu Sangmo, 2016). In addition, the price slump and jump occured several times due to inefficiency in the distribution of agricultural products and unstable supply and demand, making many difficulties to stabilize rural household incomes and operate household finances of consumers (Gam Sawon, 2017). Onions, one of representative condiment vegetables in Korea, have weak function of price formation in the production area and the range of price fluctuation is getting deepen as the amount of shipment during the harvest time is concentrated in wholesale market at a time (Ministry of Agriculture, Food and Rural Affairs, 2019). Therefore, it is time when various policies and related studies are required to solve the issue of price stabilization of domestic agricultural products including onions. The purpose of this study is to prepare plans of price stabilization for onions, one of representative condiment vegetables in Korea. To do this, the study divided the price of onion production by region and identified the causal relationship to figure out the region that leads the price, and it predicted the price of onions to conduct study that can be the basis of price stabilization policy of agricultural products. First, VAR analysis was conducted to find out what kind of casual relationship onion price have between production areas and where price leadership occurs. The results of analysis found that Gyeongsangnam-do regions (Gyeongnam, Gyeongbuk, Daegu) is leading the price of production areas, not Jeollanam-do regions (Jeonnam, Jeonbuk, Gwangju), the largest onion producing areas in Korea. There may be various causes for this, but it can be found in the characteristics of distribution structure of onions. Since most of onions shipped from the production areas form their prices through Garak Market or Daegu joint market, it was estimated that the price in Gyeongsang regions where is relatively close to Daegu joint market affects other regions. In addition, onions has high stocking ratio compared to output with high storability unlike other agricultural products. According to Korea Rural Economic Institute (2016), the numbers of domestic storing enterprises in Gyeongsang regions were 445 which is more than Jeolla regions with 304. The fact that onion storing enterprises are distributed in these production areas mean that there is enough time to respond to the price of production area. In addition, Jeong Hyeonwoo et al., (2017) found that agricultural production infrastructure in Jeollado regions is vulnerable than that of Gyeongsangdo regions. This is because vulnerable agricultural production infrastructure affects the quality of onions and loss rate. Then, the model that can improve predictive power of the price in wholesales market of onions was built by using structural model and machine learning to improve the predictive power of onion price. To develop predictive model to improve predictive power, mid-term preceding observation model of onions was built and reproduced it monthly. And then it was combined with short-term predictive model to analyze the predictive power of model which was combined with general short-term and mid-term preceding observation model. Reflecting the value of mid-term model of onion in the machine learning has an important meaning in analyzing with prior information when machine learning learns to predict the price of onions. The results of analysis found that model reflecting estimated information of mid-term preceding observation model of onions had higher predictive power. In addition, MAE, RMSE and MAPE were used as an evaluation indicator for analysis performance of machine learning. As a result of evaluation, error rates of LSTM model that reflected mid-term model information of onions and LSTM model that didn't reflect it were 17.5% and 20.2% respectively, and this indicates that LSTM that reflected mid-term model showed relatively accurate predictions. On the other hand, LSTM model that didn't reflect mid-term model was found to have relatively reasonable prediction. When the both studies were combined, we can know that study on inventories affecting the price of onions is required in the future. Since onions have strong storability, medium and late maturing varieties are stored at low temperature during harvest time and shipped from the end of September. About 50 to 60% of total production is stored and shipped every year. This study estimated inventories of onions and reflected it to predictor variables, but there are not many preceding studies that focused on inventories. In addition, private enterprises usually manage the inventories, so it is hard to identify the accurate inventory. Various efforts are required to stabilize the price of onions, but active participation of private storing enterprises are also required to effectively achieve the supply and demand of onions and stable system of price. And it is necessary to review the provision of services such as supporting grants for various shipment including wholesale market and modernizing old storehouse facilities. Based on roles of government and local governments and the results of this study, it is expected that this can be used as a basic data for establishing stabilization project of onion price and policy planning.
국내 개인신용평가모형 개발 및 평가결과 해석 연구 : LIME 알고리즘 적용을 중심으로
이헌성 연세대학교 일반대학원 2020 국내석사
This paper deals with the method of developing personal credit scoring model by utilizing domestic financial data and applying LIME algorithm to interpret the results of machine learning model, which is commonly referred to as a black-box model. A personal credit scoring model that evaluates an individual's creditworthiness should ensure both accuracy and objectivity in the evaluation results. Due to the development of machine learning algorithms, the accuracy of the evaluation has increased considerably, but this algorithm, known as the black-box model, has limitations that it is difficult to clearly interpret the evaluation results. Recently, the right to demand an explanation of the credit scoring results has been guaranteed, the importance of interpretability of the credit scoring model has become increasingly emphasized. The main objectives of this study can be summarized in two ways: One is to develop a personal credit scoring model using domestic financial data, and the other is to study methods to interpret the black-box model, especially the application of LIME algorithm. One of the research models designed in this study is the traditional credit scoring model (traditional research model), which can interpret the evaluation results, and the other is the credit scoring model (machine learning research model) using machine learning algorithms that are difficult to interpret the evaluation results. Among them, the machine learning research model, known as the black-box model, was applied with LIME algorithm to interpret the evaluation results. Also, Comparative analysis was conducted with the results of the traditional research model developed in the traditional way. We could find a pattern similar to the traditional research model, in which the score increase as the subject falls into a superior category in each scorecard factors. Furthermore, we have confirmed the limitations of the LIME algorithm from the perspective of credit evaluation, and we would like to propose a "statistic scorecard" that applies the LIME algorithm to the credit scoring model developed with the machine learning methodology so that financial institutions can use it for reference purposes despite these limitations. The significance of the study rests upon as follows: First, this thesis have developed a credit scoring model using actual financial data in the Republic of Korea, and applied the LIME algorithm to the results, and secondly, this thesis have confirmed the limitations of the LIME algorithm from the perspective of credit evaluation. Finally, despite these limitations, an alternative measure was proposed to leverage the LIME algorithm, and we hope that this study may help to suggest a more appropriate way to interpret the results of black-box model from a credit rating perspective. 본 논문은 국내의 금융데이터를 활용해 개인신용평가모형을 개발하고, 머신러닝 알고리즘을 적용한 신용평가모형의 결과를 해석하는 데 LIME (Local Interpretable Model-agnostic Explanation) 알고리즘을 적용하는 방안에 관한 내용을 다루고 있다. 개인의 신용도를 평가하는 신용평가모형은 평가결과의 정확성과 객관성이 모두 확보되어야 한다. 머신러닝 알고리즘의 발전 덕분에 평가결과의 정확성은 상당히 높아졌으나, 블랙박스 모형이라고 알려진 이 알고리즘은 평가결과에 대한 객관적인 해석이 어렵다는 한계가 존재한다. 최근 신용평가결과에 대한 설명을 요구할 금융소비자의 권리가 보장되면서 신용평가모형의 평가결과 해석에 대한 중요성이 점점 높아지고 있다. 본 연구의 주 목적은 다음과 같이 두 가지로 요약할 수 있다. 하나는 국내 금융데이터를 활용해 개인신용평가모형을 개발하는 것이고, 다른 하나는 개발한 평가모형의 평가결과를 해석하는 방안, 특히 LIME알고리즘 적용방안에 대해 연구하는 것이다. 본 연구에서 설계한 연구모형 중 하나는 평가결과에 대한 해석이 가능한 전통적인 신용평가모형 (전통적 연구모형)이며, 다른 하나는 평가결과에 대한 해석이 어려운 머신러닝 알고리즘을 활용한 신용평가모형 (머신러닝 연구모형)이다. 이 중 블랙박스 모형이라고 알려진 머신러닝 연구모형의 평가결과에 LIME알고리즘을 적용해 평가결과를 해석해보고자 했다. 또한 전통적인 방식으로 개발한 전통적 연구모형의 평가결과와 비교분석을 진행했으며, 우량한 범주에 속할수록 평점이 증가하는 전통적 연구모형과 유사한 패턴을 보이는 것을 확인할 수 있었다. 나아가 신용평가의 관점에서 LIME 알고리즘이 지니는 한계에 대해서도 확인했으며, 이러한 한계에도 불구하고 금융기관에서 참고 용도로 활용할 수 있도록 머신러닝 방법론을 적용한 신용평가모형에 LIME 알고리즘을 적용한 ‘평점통계표’를 제안했다. 본 논문의 연구결과는 다음과 같은 점에서 의미가 있다. 첫째, 국내의 실제 금융데이터를 활용해 신용평가모형을 개발하고, 그 결과에 LIME 알고리즘을 적용해봤다는 점과 둘째, 신용평가의 관점에서 LIME 알고리즘이 지니는 한계를 확인했다는 점이다. 마지막으로, 이러한 한계에도 불구하고 LIME 알고리즘을 활용할 수 있는 대안적인 방안을 제안했으며, LIME 알고리즘을 신용평가의 관점에서 더 적합한 형태로 발전시키는 방안이 제안되는 데 본 연구가 도움이 될 수 있을 것으로 기대된다.
머신러닝 기반 청소년 공격성 예측요인 연구 : 부모양육방식 효과의 변화궤적분석
This study analyzed how aggression in early adolescence changes over time and examined the role of key variables influencing this change from a longitudinal perspective. The data used in the analysis were panel data from the Korean Children and Youth Panel Survey (KCYPS2018), covering six years (2018-2023) from middle school 7th grade to high school 12th grade, with a total of 1,975 adolescent respondents. First, to identify key factors influencing adolescent aggression, we analyzed SHAP summary plots using the machine learning technique XGBoost. This was used to rank the importance of factors influencing aggression. The results revealed that positive parenting style ranked highest (Mean|SHAP|=0.175) in the SHAP-based variable importance ranking. Therefore, this study analyzed the longitudinal interaction between adolescent aggression and parenting styles, including negative parenting styles (Mean|SHAP|=0.046), which ranked third in importance. To elucidate the longitudinal relationship between positive and negative parenting styles and adolescent aggression, this study applied the Latent Growth Curve Model (LGCM), Latent Class Growth Analysis (LCGA), and Autoregressive Cross-Lagged Modeling (ARCL) in a stepwise manner. The LGCM analysis revealed a nonlinear pattern of change in adolescent aggression, with a gradual decline over time from the first year of middle school to the third year of high school. Both the initial level variance and the rate of change variance were significant, demonstrating heterogeneous developmental trajectories, with different starting points, rates of change, and directions of aggression across adolescents. To specifically distinguish these individual differences, a Latent Class Growth Analysis (LCGA) was conducted, resulting in four latent classes identified based on the trajectories of aggression. The low-stable type (23.0%) showed the lowest level of aggression and experienced the highest positive parenting style (average 3.30) and the lowest negative parenting style (average 1.74). The gradual-decrease type (35.3%) showed a pattern of initially high aggression gradually decreasing over time. The high-maintained type (15.1%) showed persistently high aggression and experienced the lowest positive parenting (average 3.02) and the highest negative parenting (average 2.20). The persistently increasing type (26.5%) started with initial low aggression (1.80) and continuously increased, accompanied by a pattern of decreasing positive parenting (3.18→3.03) and increasing negative parenting (1.91→2.03). In particular, the high proportion of the persistently increasing group suggests a unique characteristic related to Korea's competitive educational environment. To explore the temporal causal structure between positive parenting styles and adolescent aggression, we constructed an autoregressive cross-lagged model (ARCL) that included the covariance between the error terms of the two variables within the same time point. The analysis revealed significant cross-time autoregressive effects for both aggression and positive parenting styles. Positive parenting styles exhibited significant autoregressive effects across all time points, confirming the stability of positive parenting styles for adolescents over time. For aggression, high levels of significant autoregressive coefficients were observed across all paths from Time 1 to Time 6, confirming the relatively stable nature of aggression over time. An analysis of cross-time interaction revealed a time-asymmetric pattern, with the cross-lagged effects exhibiting different directions and significances across time points. This suggests that parent-child interactions are not simply unidirectional causal relationships, but rather dynamic and reciprocal processes that evolve over time and context. Examining the cross-lagged effect of positive parenting, we found that positive parenting significantly reduced aggression during the transition from Wave 1 to Wave 2 (from 1st to 2nd grade in middle school) (B=-0.077, p<.05). However, it paradoxically increased aggression during the transitions from Wave 3 to Wave 4 (from 3rd grade in middle school to 1st grade in high school) and from Wave 4 to Wave 5 (from 1st to 2nd grade in high school) (B=0.100, B=0.090, respectively, p<.01). This suggests that positive parenting may be perceived as controlling due to the increased need for autonomy in mid-to-late adolescence. The relationship between negative parenting styles and adolescent aggression was also analyzed using the ARCL model. Negative parenting styles also exhibited significant autoregressive effects at all time points, confirming stability over time. The cross-lagged effect, similar to positive parenting, exhibited a time-asymmetric pattern. During the transition from Wave 1 to Wave 2, negative parenting significantly increased aggression (B=0.108, p<.001). However, during the transition from Wave 3 to Wave 4 and Wave 4 to Wave 5, a paradoxical pattern of decreased aggression was observed (B=-0.245, p<.001; B=-0.110, p<.05). This may reflect a certain degree of normative acceptance of strict parenting in Korea's academic-centric culture, or a process of renegotiation of autonomy between parents and adolescents. Meanwhile, unlike the cross-lagged effect, which showed inconsistent direction and significance across time points, the concurrent correlation between aggression and parenting style measured at the same time point showed a consistent pattern. A significant negative correlation was found between positive parenting styles and aggression at all time points (r=-0.277~-0.359), and a significant positive correlation was found between negative parenting styles and aggression at all time points (r=0.435~0.455). This means that while positive parenting acts as a protective factor and negative parenting acts as a risk factor cross-sectionally, the longitudinal causal relationship changes dynamically depending on developmental stage and cultural context. In particular, correlation analysis showed that negative parenting (r=0.435) was 1.57 times stronger than positive parenting (r=-0.277), but machine learning analysis showed that positive parenting had a higher predictive importance, suggesting the need for differentiated strategies for preventive intervention and crisis intervention. In summary, this study used machine learning to identify factors influencing adolescent aggression. The resulting positive and negative parenting styles were then integrated into a longitudinal model, along with aggression trajectories, to conduct a multi-layered analysis of the interactions between positive and negative parenting styles and adolescent aggression. This analysis uncovered the differential impact of parenting styles across aggression trajectories, providing practical implications for early identification and intervention strategies for adolescents at risk for aggression. This study empirically confirmed that positive and negative parenting styles operate as independent and differential mechanisms, and that their effects dynamically change across developmental stages. Furthermore, it revealed that correlations and longitudinal causality can exhibit different patterns, emphasizing the importance of considering longitudinal causality, not mere correlation, when developing intervention strategies. Furthermore, this study proposed a research framework that views adolescent aggression not simply as a temporary problem but as a long-term, structural developmental process. This study provides empirical evidence supporting the need for integrated family-level interventions and tailored policies for each group. 본 연구는 초기 청소년의 공격성이 시간의 흐름에 따라 어떻게 변화하는지 분석하고, 이에 영향을 미치는 주요 변인의 역할을 종단적 관점에서 분석하였다. 분석에 사용된 자료는 「한국아동청소년패널조사(KCYPS2018)」의 중학교 1학년부터 고등학교 3학년까지 6개년도(2018-2023) 패널 데이터이며 총 1,975명의 청소년 응답자를 대상으로 하였다. 먼저 청소년들의 공격성에 영향을 미치는 핵심 요인을 도출하기 위하여 머신러닝 기법을 활용한 결과, 긍정적 부모양육방식이 가장 높은 중요도(Mean|SHAP|=0.175)를 보이는 요인으로 나타났다. 이에 본 연구에서는 청소년의 공격성과 부모양육방식이 종단적으로 어떻게 상호영향을 미치는지 분석하기 위해 중요도 3위로 나타난 부정적 부모양육방식(Mean|SHAP|=0.046)도 함께 분석하였다. 긍정적·부정적 부모양육방식과 청소년의 공격성 간의 종단적 관계를 규명하기 위하여 본 연구에서는 잠재성장곡선모형(LGCM), 잠재계층성장분석(LCGA), 자기회귀교차지연모형(ARCL)을 단계적으로 적용하여 분석하였다. 먼저 잠재성장곡선모형(LGCM) 분석 결과 청소년의 공격성은 중학교 1학년에서 고등학교 3학년에 이르기까지 시간이 갈수록 점진적으로 감소하는 비선형 변화 패턴이 확인되었다. 초기 수준 분산과 변화율 분산이 모두 유의하게 나타나 청소년마다 공격성의 시작점과 변화율 및 방향이 서로 다른 이질적 발달궤적을 보였다. 이러한 개인 간 차이를 구체적으로 구분하기 위해 잠재계층성장분석(LCGA)을 실시한 결과, 공격성의 변화궤적에 따라 네 개의 잠재계층이 도출되었다. 저수준 안정형(23.0%)은 가장 높은 긍정적 양육과 낮은 부정적 양육을 보인 반면, 고수준 유지형(15.1%)은 정반대 패턴을 나타냈다. 점진적 감소형(35.3%)은 초기 높은 공격성이 시간 경과에 따라 점차 감소하는 패턴을 보였다. 주목할 점은 지속적 증가형(26.5%)의 높은 비율로, 이 집단은 초기 낮은 공격성에서 시작하여 지속적으로 증가하였으며 긍정적 양육의 감소 및 부정적 양육의 증가 패턴을 동반하였다. 이는 한국의 경쟁적 교육환경과 관련된 특수성을 시사한다. 긍정적 부모양육방식과 청소년의 공격성 간의 시간적 인과 구조를 탐색하기 위해 동일 시점 내 두 변수의 오차항 간 공분산을 포함한 자기회귀교차지연모형(ARCL)을 구성하여 분석하였다. 분석 결과, 공격성과 긍정적 부모양육방식 모두 시점 간 유의한 자기회귀 효과를 보여 시간에 따른 안정성을 확인하였다. 시점 간 상호영향을 분석한 결과, 교차지연 효과는 시점에 따라 방향과 유의도가 다르게 나타나는 시간-비대칭적 패턴을 보였다. 이는 부모와 자녀 간의 상호작용이 단순한 일방향적 인과관계가 아니라 시간과 맥락에 따라 변화하는 역동적이고 상호적 과정임을 시사한다. 긍정적 양육의 교차지연효과를 살펴보면, 1차에서 2차(중학교 1학년→2학년)로의 전환기에는 긍정적 양육이 공격성을 유의하게 감소시켰으나(B=-0.077, p<.05), 3차에서 4차(중학교 3학년→고등학교 1학년) 및 4차에서 5차(고등학교 1학년→2학년)로의 전환기에는 오히려 공격성을 증가시키는 역설적 효과를 나타냈다(B=0.100, B=0.090, 각각 p<.01). 이는 청소년기에서 중후기의 자율성 욕구 증가에 따라 긍정적 양육이 통제로 지각될 수 있음을 시사한다. 부정적 부모양육방식과 청소년의 공격성 간의 관계도 ARCL 모형으로 분석하였으며, 유사한 시간-비대칭적 패턴을 나타냈다. 1차에서 2차로의 전환기에는 부정적 양육이 공격성을 유의하게 증가시켰으나(B=0.108, p<.001), 3차에서 4차 및 4차에서 5차로의 전환기에는 오히려 공격성을 감소시키는 역설적 패턴을 보였다(B=-0.245, p<.001; B=-0.110, p<.05). 이는 한국의 학업 중심 문화에서 부모의 엄격한 양육이 일정 부분 규범적으로 수용되거나, 청소년-부모 간 자율성 재협상이 이루어지는 과정을 반영하는 것으로 해석된다. 한편, 교차지연 효과가 시점에 따라 방향성과 유의성에서 불일치하게 나타난 것과 달리, 동일 시점에서 측정된 공격성과 부모양육방식 간의 동시적 상관은 일관된 패턴을 보였다. 긍정적 부모양육방식과 공격성 간에는 모든 시점에서 유의한 부적 상관이, 부정적 부모양육방식과 공격성 간에는 모든 시점에서 유의한 정적 상관이 나타났다. 이는 횡단적으로 긍정적 양육은 보호 요인으로, 부정적 양육은 위험요인으로 작용하지만, 종단적 인과관계는 발달단계와 문화적 맥락에 따라 역동적으로 변화함을 의미한다. 특히 상관분석에서는 부정적 양육이 더 강한 관련성을 보였으나, 머신러닝 분석에서는 긍정적 양육의 예측 중요도가 더 높게 나타나 예방적 개입과 위기 개입의 차별화된 전략이 필요함을 시사한다. 종합적으로 본 연구는 머신러닝을 통해 청소년 공격성에 영향을 미치는 요인을 도출한 결과, 확인된 긍정적·부정적 부모양육방식을 공격성변화궤적과 함께 종단모형에 통합적으로 적용하여 긍정적·부정적 부모양육방식과 청소년 공격성 간의 상호작용을 다층적으로 분석하였다. 이러한 분석은 공격성 변화 궤적에 따른 부모양육방식의 차별적 영향을 규명함으로써 향후 공격성 위험군 청소년의 조기 선별과 개입 전략 수립에 실질적인 시사점을 제공한다. 본 연구는 긍정적 부모양육방식과 부정적 부모양육방식이 독립적이며 차별적인 기제로 작용하고, 그 효과가 발달단계에 따라 역동적으로 변화한다는 점을 실증적으로 확인하였다. 또한 상관관계와 종단적 인과관계가 서로 다른 양상을 보일 수 있음을 밝혀, 개입 전략 수립 시 단순 상관이 아닌 종단적 인과관계를 고려해야 함을 강조하였다. 나아가, 청소년기의 공격성을 단순한 일시적 문제로 보지 않고 장기적이고 구조적인 발달 과정으로 접근하는 연구 틀을 제시하였다. 따라서 본 연구는 가족 단위의 통합적 개입과 집단별 맞춤형 정책 수립의 필요성을 뒷받침하는 실증적 근거를 제공한다.