
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
결측자료 분석에서의 일반화 부스팅 및 랜덤 포레스트를 이용한 벌칙 스플라인 성향 점수 대체방법의 성능 비교
목적 : 결측자료의 분석에서 결측값의 대체 후 추정량의 불편성이 성립되지 않으면 추정량의 효율이 떨어지게 된다. 결측값을 대체하는 일반적인 모형 기반의 접근법은 선형 회귀와 같은 모수적 모형을 이용한 대체 방법이다. 이 방법은 독립변수와 종속변수의 관계를 나타내는 모형이 맞게 설정된 임의결측 가정 하에서는 효율적이다. 하지만, 모형 설정이 잘못된 경우 큰 편향을 야기하는 문제가 발생한다. 이에 대한 대안으로, 강건한 모형기반의 벌칙 스플라인 성향점수 대체방법을 사용할 수 있다. 하지만, 결측값 대체방법에 사용되는 성향점수는 응답성향을 추정하는 모형에 민감하여, 응답성향을 추정하는 모형이 맞지 않는 경우 추정치에 편향이 발생할 수 있는 단점이 있다. 따라서 본 논문은 응답성향 예측모형에 있어 강건한 모형 기반의 기계학습 방법인 일반화 부스팅과 랜덤 포레스트의 성능을 비교하고 평가한다. 방법 : 일반적으로 성향점수를 이용하는 통계적 분석은 두 군을 비교하는 관찰연구에서 매칭 등의 방법으로 알려져 있지만, 결측값 대체방법으로도 사용할 수 있다. 응답성향을 추정할 때 종속변수가 이산적인 값을 갖기 때문에 모수적 응답성향 예측모형인 로지스틱 회귀모형을 고려하고, 준모수적 모형으로는 일반화 가법모형을 고려한다. 추가적으로 일반화 부스팅과 랜덤 포레스트의 응답성향 예측모형을 기계학습 방법으로 고려한다. 결측값을 대체하기 위해, 각 모형으로 추정한 성향점수를 벌칙 스플라인 성향점수 대체모형에 적용한다. 결측값을 대체한 후, 자료의 편향과 평균제곱오차의 결과를 비교하여 네 가지 응답성향 예측모형의 성능을 평가한다. 결과 : 성향점수를 추정한 뒤 벌칙 스플라인 성향점수 대체방법을 적용한 모의실험의 결과, 벌칙 스플라인 성향점수 대체방법으로 강건한 추정치를 만들 수 있다. 특히, 응답모형이 가법적인 경우, 로지스틱 회귀모형을 제외한 일반화 가법모형, 일반화 부스팅, 랜덤 포레스트 모두 강건한 추정치를 만들었다. 응답모형이 비가법적일 때, 일반화 부스팅과 랜덤 포레스트가 일반화 가법모형보다 편향이 최소화 된 추정치를 갖는 결과를 보였다. 특히, 비가법항의 크기가 커질수록, 랜덤 포레스트의 추정치가 편향과 평균제곱오차 모두 감소하는 결과를 보였다. 결론 : 응답성향점수를 이용하는 결측값 대체 방법은 응답성향점수의 예측모형이 잘못 설정되면 심각한 편향을 발생시킬 수 있다. 이 문제를 해결하기 위한 방법으로 강건한 모형 기반의 기계학습 방법을 이용한 응답성향 예측모형을 통한 벌칙 스플라인 성향점수 대체방법은 응답모형이 가법적 또는 비가법적인 경우 모두 편향이 최소화 된 추정치를 제공한다. 실제 자료에서는 결측이 어떤 메커니즘에 따라 발생하는지 밝히는 것이 어렵다. 따라서 가법적 응답모형 뿐만 아니라 비가법적 응답모형에서도 강건한 모형 기반의 일반화 부스팅과 랜덤 포레스트를 응답성향 예측모형으로 사용하는 것을 제안한다. Objectives : In the analysis of missing data, the efficiency of the estimator is reduced if it becomes biased after the replacement of these missing values. An imputation method using a parametric model such as linear regression is a general model-based approach to replace missing values. Under MAR assumption, this method is efficient when the model showing the relationship between a dependent variable and independent variables is specified correctly. However, the method produces bias when the model is misspecified. As an alternative, the penalized spline propensity prediction imputation method with robust inference of missing data can be used. However, the propensity score used in missing value imputation method is sensitive to the propensity model, so that it can not yield robust inference when the propensity model is misspecified. Therefore, this study compares and evaluates the performance of generalized boosting and random forest based on machine learning when estimating the efficacy of the propensity model. Methods : In general, statistical analysis using a propensity score is known as matching in observational studies that compare two groups, but it can also be used as a missing value imputation method. Since the dependent variable is discrete, the logistic regression model is considered as a parametric propensity model, and the generalized additive model is considered as a semi-parametric propensity model when the propensity score is being estimated. In addition, the generalized boosting and the random forest are considered as the propensity models that use machine learning. To replace the missing values, the propensity score estimated by each model fits to the penalized spline propensity prediction imputation model. After replacing the missing values, the performance of the four propensity models is evaluated by comparing the results of empirical bias and mean squared error. Results : As a result, by fitting the penalized spline propensity prediction imputation method, it was possible to yield robust inference. In particular, when the response model was additive, all the propensity models except for the logistic regression model yielded robust inference. When the response model was nonadditive, generalized boosting and random forest offered more robust inferences than the generalized additive model. In particular, as the influence of the nonadditive term got greater, the more robust the random forest estimates were, both in the bias and the mean squared error. Conclusion : The imputation method using a propensity score can cause serious bias if the propensity model is misspecified. As a method to solve this problem, the penalized spline propensity prediction imputation method conducted through the machine learning propensity model produces robust inference for both additive and nonadditive response models. In actual data, it is difficult to discern the mechanism from the missing data. Therefore, I propose to use generalized boosting and random forest as response models, which offer robust inference, in addition to the additive response model as well as the nonadditive response model.
정보통신 서비스 이용에 관한 세 가지 실증연구 : 결합상품, 핀테크, OTT를 중심으로
본 연구는 제4차 산업혁명시대의 주요 융합기술로 거론되는 정보통신(Information and Communications Technology, 이하 ICT) 서비스에 관한 이용자 측면에서의 세 가지 실증연구로 구성되어 있다. 첫 번째 실증연구는 방송통신 서비스업과 관련된 연구로, 초고속인터넷, 유료방송, 이동통신 등의 방송통신 결합상품이 가입자 전환에 미치는 영향에 대하여 분석하였다. 두 번째 실증연구는 금융서비스와 관련된 연구로, 핀테크 이용의 대표적인 저해요인인 프라이버시 염려와 핀테크 서비스 사이의 관계에 대하여 분석하였다. 세 번째 실증연구는 ICT 발전으로 인하여 최근 빠르게 성장하고 있는 OTT 서비스에 관하여, 머신러닝 기법 중 하나인 랜덤포레스트를 이용하여 이용자를 예측하고 예측에 도움이 되는 주요 요인을 탐색하였다. 첫 번째 실증연구에서는 2017년~2020년의 KISDI(정보통신정책연구원) ‘한국미디어패널조사’자료를 이용하여 방송통신 결합상품이 초고속인터넷, 유료방송, 이동통신 서비스 등의 사용자 전환률을 낮춰서 고착화 현상의 심화를 초래하였는지에 대하여 분석하였다. 이을 위해 이동통신 결합상품의 계약 회선을 명시적으로 식별하고, 다기간 및 다년 단위의 전환률을 실증모형을 이용하여 추정하였다. 실증분석의 주요 결과는 다음과 같다. 첫째, 초고속인터넷, 유료방송, 이동통신 등 모든 서비스에서 결합상품이 통계적으로 유의하게 전환확률을 감소시키는 것으로 나타났다. 둘째, 전환기간을 2년, 3년 등으로 길게 정의할수록 이동통신의 경우에만 전환확률이 낮아지는 것으로 나타났다. 이는 결합상품이 가지는 사업자 전환 제약요인에 이동통신 서비스 자체의 사업자 전환 제약요인이 부가된 결과로 해석할 수 있다. 이러한 결과부터 본 연구는 통신사업자들이 이동통신 결합상품에 적극적으로 노력을 기울이고, 최근 이동통신 결합상품이 급성장을 하는 이유를 이행하는데 기여 할 수 있으며, 결합상품의 후생분석에 있어 요금 할인 측면에서 소비자편익을 증가시킬 개연성이 존재하지만, 동시에 소비자 전환률을 낮추는 고착화 증가의 효과가 있음을 간과할 수 없다는 시사점을 발견할 수 있었다. 두 번째 실증연구에서는 국내 핀테크 산업을 활성화 시키는데 있어서 소비자들의 핀테크 이용의 가장 큰 저해요인으로 뽑히는 프라이버시 염려가 핀테크 서비스 이용에 어떠한 영향을 미치는지 실증분석 하였다. 이를 위해 한국미디어패널조사 2020년 개인설문 자료와 2016년 부가조사 자료를 재구성하고, 처치효과 분석, Heckman 2단계 분석 및 이산형⋅순서형 프로빗 분석 등의 방법론을 이용하였으며, 개인의 이질성을 통제하고자 5요인 성격모형 변수를 추가하여, 인터넷 전문은행, 모바일 간편결제, 모바일 간편송금 등으로 핀테크 서비스를 구분하고 추정하였다. 분석결과는 다음과 같다. 첫째, 이산선택 모형 및 처지효과에서 핀테크 서비스, 모바일 간편결제, 모바일 간편송금은 프라이버시 염려가 높음에도 불구하고 서비스를 이용하는 프라이버시 역설이 나타났다. 둘째, 핀테크 서비스를 0부터 3까지의 순서형 변수로 정의하여 분석하는 경우에도 프라이버시 역설은 존재하였으나, 선택편의를 명시적으로 고려하는 경우 참가방정식과 달리 수량방정식에서는 프라이버시 역설이 발견되지 않았다. 이러한 결과로부터 다양한 핀테크 서비스를 활성화시키기 위해서는 우선 소비자로 하여금 하나의 핀테크 서비스라도 경험할 수 있도록 특정 서비스를 집중적으로 지원할 필요가 있음을 시사한다. 세 번째 실증연구에서는 아직까지 명확하게 규정되지 않은 OTT 이용자 특성을 탐색하는데 있어서 종속변수와 설명변수 사이의 관계를 사전에 모형화 할 필요가 없고, 다수의 설명변수가 포함된 모형도 분석할 수 있는 랜덤포레스트를 이용하여 OTT 서비스 이용자를 예측하고, 예측에 중요한 역할을 한 변수를 이용하여 이용자의 특성을 탐색하고자 한다. 분석은 한국미디어패널조사 2019년, 2020년 2개년도의 자료를 패널로 구성하여 이용하였으며, 방송 서비스와 인터넷 서비스의 특징을 모두 가지고 있는 OTT가 유료방송과 유사한지, 그리고 랜덤포레스트의 예측력이 기존의 이산선택모형 보다 더 뛰어난지, 어떤 변수들이 예측에 도움이 되는지 등을 살펴보았다. 분석결과 첫째, 케이블 TV, 위성방송, IPTV 등의 유료방송 가입자 간에는 예측에 중요한 변수 구성이 유사하였으나, OTT 서비스 및 유료 OTT 이용자와는 구성이 다르다는 점으로부터 유료방송과 OTT 서비스는 이질적인 서비스라고 유추할 수 있었다. 둘째, T-test를 이용하여 검증한 결과 동일한 변수를 사용하더라도 랜덤포레스트가 로짓 모형보다 더 높은 예측력을 가짐을 확인할 수 있었다. 셋째, OTT 이용자를 예측하는데 있어서 일반적으로 사용되는 인구통계학적 특성보다는 관찰 가능하거나 주관적인 개인의 행동들이 중요한 것으로 나타났다. 이러한 결과를 바탕으로 본 연구가 가지는 의의와 한계점을 논의한다. This paper consists of three empirical studies on the use of Information and Communications Technology (ICT) services, which are selected as important industries in the 'Fourth Industrial Revolution'. The first empirical study was a study related to the broadcasting and telecommunications service industry, and analyzed whether bundling of telecommunications services makes individuals less likely to switch their broadband, Pay-TV or mobile communications service provider. The second empirical study was related to financial services, and analyzed the relationship between fintech services and privacy concerns. The third empirical study is related to OTT services that are growing rapidly with ICT development. It predicted users using a random forest and explored for variables that help prediction. The first empirical study analyses whether bundling of telecommunications services makes individuals less likely to switch their broadband, Pay-TV or mobile communications service provider using the KISDI media panel data during 2017-20. We estimate the churn rates of broadband, Pay-TV or mobile services on long-period and multi-years, after identifying mobile bundling subscriber (or contract line). Empirical results are as follows. First, bundling significantly decreases churn rates of all services such as broadband, Pay-TV, mobile services. Second, the longer the conversion period, only the mobile services show significant decrease. From these results, we can find the following implications. First, they can explain why telecommunications firms are actively working on bundling of mobile services and mobile bundlings are growing recently. Second, bundling could increase the consumer benefits due to price discounts, but at the same time, it should not be overlooked that there exists the lock-in effect by decreasing the churn rates of consumer, when analyzing the welfare effects of telecommunications bundling services. The Second empirical study analyses whether privacy concerns, which are selected as the biggest obstacle to consumers' use of fintech in revitalizing the domestic fintech industry, affect the use of fintech services. the KISDI media panel data’s 2016 and 2020 survey data were reorganized. and it analyzed using such as treatment effect analysis, Heckman two-stage analysis, and discrete and ordered probit analysis. In addition, in order to control individual heterogeneity, Big-five personality model variables were added, and fintech services were identified and estimated by internet only bank, mobile payments, and mobile remittance. Empirical results are as follows. First, in the discrete choice model and treatment effect model both, there was a privacy paradox for fintech services, mobile payment, and mobile remittance. Second, When fintech services are defined as Ordinal variables from 0 to 3, the privacy paradox is mainly due to the participation equation, that is, the decision to participate in fintech services. From these results, I suggests that in order to activate various fintech services, it is necessary to intensively support specific services so that consumers can experience even one fintech service. In the third empirical study explore OTT user characteristics that have not yet been clearly defined using random forest. Random forest does not need to model the relationship between the dependent variable and the independent variable, and it has a characteristic that can be analyzed including many variables. For the analysis, the data for the two years 2019 and 2020 of the KISDI Media Panel data were composed of panels and used. And it analyses whether OTT, which has the characteristics of both broadcasting and Internet services, is similar to Pay-TV. In addition, I looked at whether the predictive power of Random Forest is better than the discrete choice model, and what variables are important for prediction. Empirical results are as follows. First, the composition of variables important for prediction was similar among Pay-TV subscribers such as cable TV, satellite broadcasting, and IPTV, but it could be inferred that Pay-TV and OTT services were heterogeneous services. Second, as a result of verifying using the T-test, it was confirmed that the random forest had higher predictive power than the logit model even if the same variable was used. Third, it was found that observable or subjective individual behaviors were more important than the commonly used demographic characteristics in predicting OTT users. From these results, the significance and limitations of this study are discussed.
당뇨합병증 위험 예측 모형 개발- Cox비례 모형과 Random Survival Forest 비교를 중심으로 -
김나영 연세대학교 일반대학원 2026 국내박사
본 논문은 제2형 당뇨병 신환자를 대상으로 당뇨합병증 발생 위험을 장기간에 걸쳐예측하고, 예측모형의 성능을 비교·평가함으로써 더욱 정교한 당뇨합병증 예측 모형을제시하고자 하였다. 이를 위해 국민건강보험공단 빅데이터를 활용하여 2003∼2004년에 제2형 당뇨병으로 처음 진단받은 환자 124,521명을 대상으로 최대 20년간 추적 관찰하였으며, 당뇨 관련 전체 합병증뿐만 아니라, 임상적 특성이 상이한 미세혈관 합병증과 대혈관 합병증을 구분하여 분석을 수행하였다.예측 정밀도를 높이기 위하여 본 연구에서는 생존분석에서 전통적으로 많이 쓰이는Cox 비례위험모형과 머신러닝 기반의 랜덤 서바이벌 포레스트(Random Survival Forest, RSF)를 교차 적용하였다. 또한 변수 선택 방법도 특성에 따라 LASSO 회귀와 RSF 기반 변수중요도(VIMP)를 각각 활용함을 통해 예측모형 간의 조합이 실제성능에 어떻게 영향을 미치는지 체계적으로 비교하고자 하였다. 모형의 타당성은C-index, IBS, AUC값 등 다양한 지표를 활용하였다.분석 결과, 전체 합병증을 포함하여 미세혈관 합병증과 대혈관 합병증 모두에서Cox-LASSO 조합이 전반적으로 가장 안정적인 예측성능을 보이는 것으로 나타났다.이는 연구 설계과정에서 자료를 범주형으로 구성하였고, 비교적 선형관계가 명확하여비선형 모형을 분석하는데 강력한 RSF 모형보다 Cox 모형이 더 효과적으로 작용한것으로 해석된다. 결국 자료 특성 등에 따라 적절한 모형 선택 및 변수 선택 방법을다각적으로 검토할 필요성이 있음을 알 수 있었다.주요 위험 요인 분석 결과를 살펴보면, 연령과 단백뇨가 합병증 유형과 관계없이 주요 위험 요인임을 알 수 있다. 합병증 유형을 불문하고 연령, 단백뇨는 당뇨 합병증발생에 핵심 위험 요인으로 확인되었다. 연령은 전체 합병증과 대혈관 합병증 예측에서 기여도가 가장 높은 변수이며, 단백뇨는 미세혈관 합병증에서 다른 변수 대비 상대적으로 높은 중요도를 나타내었다. 이 외, 전체 및 대혈관에서 흡연 또한 주요 변수로 확인되었다. 이런 결과를 조합해보면 노화로 인한 생리적 취약성, 단백뇨로 확인할수 있는 신장 손상, 흡연으로 인한 혈관 혹은 대사계 손상 등이 당뇨합병증 발생의주요 기전임을 시사한다.본 연구의 의의는 다음과 같다. 첫째, 건강보험공단의 빅데이터를 활용하여 제2형당뇨병 신환자를 정의하고 이들을 장기간 추적함으로써 합병증 발생에 대한 장기 위험 구조를 확인하고자 하였다. 둘째, 서로 다른 특성이 있는 생존분석 및 변수 선택방법론을 교차 적용하여 당뇨 합병증 발생 위험 예측의 정밀도를 비교‧평가하고 가장우수한 모형을 선정하였다. 셋째, 당뇨 합병증을 전체, 미세혈관, 대혈관으로 구분하여유형별로 위험 요인 구조를 비교·분석함으로써, 각 합병증의 이질성을 반영하여 분석을 수행하였다.반면 본 연구는 자료의 특성상 생활습관 변수는 자가 보고 형태로 수집되는 자료로편향 가능성이 있으며, 단년도 자료를 활용하여 시간변화에 따른 영향 요인이 변화등을 반영하지 못한 한계가 있다. 이런 한계로 선행연구와 상이한 결과를 도출한 복약순응도와 같은 요인은 해석에 주의가 요구된다. 그럼에도 불구하고 본 연구는 당뇨합병증 예측모형을 정밀하게 구축함하고 주요 위험 요인을 선별하여, 제한적인 의료자원을 더욱 효율적으로 배분하기 위한 근거를 제공한다는 함의를 가진다. 특히, 연령과 단백뇨를 중심으로 주요 위험 요인 등을 관리하는 전략을 제시하는 것을 바탕으로향후 예방 중심의 당뇨병 관리체계 구축에 기여할 수 있을 것으로 기대한다. This study aims to develop a predictive model for the long-term risk of diabetes complications among patients newly diagnosed with type 2 diabetes mellitus(T2DM) and to compare the predictive performance of different modeling approaches. Using big data from the National Health Insurance Service of Korea(NHIS), a cohort of 124,521 patients who were newly diagnosed with T2DM between 2003 and 2004 was followed for up to 20 years. Analyses were conducted not only for all diabetes-related complications but also separately for microvascular and macrovascular complications, which differ in clinical characteristics. Both the traditional Cox proportional hazards model and the machine learning–based survival analysis method, Random Survival Forest(RSF), were applied. Variable selection was performed using least absolute shrinkage and selection operator(LASSO) regression and RSF-based variable importance(VIMP), respectively. This study systematically examined how different combinations of variable selection methods and model types influenced predictive performance. Model performance was evaluated using multiple metrics, including the concordance index(C-index), integrated Brier score(IBS), and area under the curve(AUC). The results of this analysis indicate that, across overall, microvascular, and macrovascular complications, the Cox model with LASSO-based variable selection showed consistently stable predictive performance. Although Random Survival Forest models are known to perform well in capturing non-linear relationships, the Cox-based approach appeared to be more suitable for the present data structure. This may be partly explained by the fact that many predictors were categorical and that the associations between predictors and outcomes were relatively clear and monotonic. Age and proteinuria were identified as important factors in the analysis, regardless of the type of complication considered. Age showed a stronger contribution in the prediction of overall and macrovascular complications, while proteinuria was more prominent in models for microvascular complications. Smoking was also included repeatedly, particularly in the overall and macrovascular analyses. These results indicate that diabetes complications tend to be associated with aging, renal involvement, and long-term exposure to unhealthy behaviors such as smoking. This study has several implications. First, newly diagnosed patients with T2DM were defined using National Health Insurance data and followed for a long period of time. This made it possible to observe long-term patterns related to complication risk. Second, different survival models and variable selection methods were applied to the same dataset. By doing so, differences between conventional Cox-based approaches and machine learning-based models could be examined under similar conditions. Third, complications were classified into overall, microvascular, and macrovascular categories, rather than being analyzed as a single outcome. This approach allowed similarities and differences in risk factor patterns to be observed across complication types. Some limitations should be considered. Most variables were measured at baseline, and changes over time were not reflected in the models. In addition, several variables were based on self-reported information, which may have affected accuracy. These issues may partly explain inconsistencies with previous findings, particularly for medication adherence. Despite these limitations, the results suggest that administrative health data can be used to construct prediction models for diabetes complications. The analysis also indicates that age and renal-related factors deserve attention when considering long-term management and prevention of diabetes complications.
동적데이터 기반의 생활도로 보행자 교통사고 위험도 산정모형 개발
김동기 서울시립대학교 일반대학원 2023 국내박사
As of 2021, pedestrian fatalities in South Korea accounted for approximately 34% of the total traffic accident fatalities, and the number of pedestrian accidents was twice the occupancy rate (17%). In particular, fatalities in mixed traffic zones accounted for 74.9%, which was about three times higher than in separated pedestrian zones. It was also found that fatalities were highest on roads with a width of less than 13 meters, accounting for 68.7%. These statistical analysis results suggest that South Korea is facing significant risks in terms of pedestrian activities on community roads. However, there is currently no evaluation method in place to determine which community roads are more dangerous. Improvement projects are primarily implemented based on accident-prone areas, areas with complaints, and areas with high pedestrian traffic, without a comprehensive assessment of the risk. Furthermore, traffic accidents are influenced not only by static factors such as road geometry and infrastructure but also by dynamic factors. However, dynamic factors have been traditionally analyzed using representative values (such as averages) similar to static factors. Therefore, the purpose of this study is to analyze the factors influencing pedestrian traffic accidents on community roads and propose a method for evaluating the risk of pedestrian accidents on community roads. Additionally, the study aims to provide a foundation for developing a dynamic model that can measure the real-time risk of community roads by collecting real-time data on factors believed to have a significant impact on pedestrian traffic accidents, such as pedestrian volume, traffic volume, thenumber of parked vehicles, and conflict index (between vehicles and pedestrians). For the analysis of factors influencing pedestrian traffic accidents on community roads, a negative binomial regression model was constructed, and the results showed that five variables were statistically significant: segment length (meters), pedestrian volume (persons per 15 minutes), one-way traffic (1: one-way, 2: two-way), degree of illegal parking, and pedestrian-vehicle conflict ratio. Segment length and pedestrian volume were used to calculate the Safety Performance Function (SPF), while the remaining variables were used to calculate the Crash Modification Factors (CMF) based on the methodology presented in the Highway Safety Manual (HSM) in the United States. The risk assessment was divided into five grades (1 to 5), and supervised learning algorithms (Gradient Boosting Machine, Random Forest, Support Vector Machine) were implemented to classify the risk level and its associated factors. On comparing the implemented algorithms , the results showed that the Random Forest algorithm had the best predictive power with respect to Root Mean Square Error (RMSE) and Mean Absolute Error (MAE). The findings of this study are expected to have practical applicability through the collection of data on static and dynamic factors through CCTV installed on community roads and implementing the developed models and risk evaluation methods. Previously, it was not possible to evaluate the risk of pedestrian accidents on community roads, but with the monitoring of dynamic factors through CCTV, the foundation for real-time risk assessment has been established. 2021년 기준 우리나라는 보행자 교통사고 사망자수가 전체 교통사고 사망자수의 약 34%를 차지하고 있으며, 전체 교통사고건수 중 보행자 사고건수 점유율(17%) 대비 약 2배 높다. 특히, 보차혼용도로에서의 보행 사망자수가 전체 보행 사망자수의 74.9%를 차지하여 보차분리도로에 비해 약 3배나 높은 것으로 나타났으며, 도로폭이 13m미만인 도로에서 68.7%를 차지하는 것으로 나타났다. 이러한 통계분석 결과는 보행자의 활동이 많은 생활도로가 상대적으로 매우 위험한 것으로 판단된다. 그러나 현재 우리나라는 어느 생활도로가 더 위험한지에 대한 평가기법이 없어, 단순히 사고가 빈번한 곳 또는 민원이 있는 곳, 보행자 이동량이 많은 곳 위주로 개선사업 등을 시행하고 있다. 또한 교통사고는 도로기하구조, 시설물 등과 같이 정적인 요소뿐만 아니라 교통량, 보행량, 주차차량 수 등과 같은 동적인 요소의 영향을 많이 받으나 동적인 요소에 대해서도 하나의 대푯값(평균값 등)을 이용하여 정적인 요소처럼 고려되어 교통사고에 미치는 영향정도를 분석하여 왔다. 뿐만아니라 생활도로는 데이터 구득의 어려움으로 인해 현장조사를 통한 개선대책을 마련해왔으나, 상대적으로 보행자가 많고 불법주정차 등 다이나믹한 요소들이 많은 시점에 조사가 이루어지지 못하고 있는 실정이다. 따라서 본 논문에서는 생활도로 보행자 교통사고에 영향을 미치는 요인을 분석하고, 이를 이용하여 생활도로의 보행자 교통사고 위험도를 평가할 수 있는 방법을 제시하고자 한다. 또한, 생활도로 보행자 교통사고에 영향을 많이 미친다고 생각되는 보행량, 교통량, 주정차 차량수, 상충수(차량과 보행자간) 등을 실시간으로 측정하여 실시간으로 생활도로의 위험도를 산정할 수 있는 동적모형을 개발할 수 있는 기틀을 제공하고자 하였다. 생활도로 보행자 교통사고 영향요인 분석을 위해 음이항 회귀모형을 구축하였으며, 모형 구축결과 구간길이(m), 보행량(인/15분), 일방통행여부, 불법주정차 정도, 보행자-차량 상충비율 5개 변수가 유의한 것으로 나타났다. 구간길이와 보행량은 안전성능함수(SPF)에 사용하고, 나머지 변수들은 사고수정계수(CMF)를 산출하여, 미국 도로안전편람(HSM)에서 제시한 방법으로 생활도로 보행자 사고 위험도 평가방법을 개발하였다. 위험도 평가 등급은 1~5등급까지 구분하였으며, 위험도 등급과 영향요소들을 지도학습 알고리즘들(Gradient Boosting Machine, 랜덤포레스트, Support Vector Machine)로 구현하고 비교하였다. 평균제곱근오차(RMSE), 평균절대오차(MAE)를 비교한 결과, 랜덤포레스트 알고리즘이 가장 예측력이 좋은 것으로 나타났다. 본 논문의 결과는 생활도로에 설치한 CCTV로 정적요소와 동적요소의 값을 수집하고, 수집된 자료들을 이용하여 개발된 모형 및 위험도 평가방법에 적용할 수 있을 것으로 기대된다. 기존에는 동적데이터를 활용하여, 생활도로 보행자 사고 위험도를 평가할 수 없었으나, CCTV를 통해서 동적요소들 변화를 모니터링 함으로써, 실시간으로 위험도를 산출할 수 있는 기틀을 마련하였다.
랜덤포레스트를 활용한 소상공인 사업 지속가능성 예측모형 개발연구
박준식 한밭대학교 창업경영대학원 2022 국내석사
The purpose of this study is to present a model to predict the sustainability of a small business by using a RandomForest machine learning algorithm, to evaluate the prediction performance of the model, and to identify the characteristics of factors contributing to the prediction. For the empirical analysis, data from the “2019 Small Business Survey” jointly prepared by the Ministry of SMEs and Startups and the National Statistical Office was used. For the predictive model, 45 explanatory variables were set for variables that were verified to have an effect on startup preparation, management performance, and sustainability of small business owners in previous studies. As for the predictive performance of the small business sustainability model, the accuracy of correctly classifying the continuous operation of small business owners was 91.06%, and the sensitivity of predicting that small business owners thinking sustainable operation would continue was 95.0%. The precision, which is the probability that the result predicted as a small business owner with a sustainable management idea is correct, is 88.21%, the F1-Score, the harmonic average of sensitivity and precision, is 91.48%, and the ROC-AUC score, which measures the true positive rate to the false positive rate, is 91.02. % was shown. The results of this study can be said to be comparable to or superior to those of social science studies that use random forests to present results. The importance of the explanatory variables contributing to the prediction is, in order, sales, start-up motive (because it is likely to have more income), importance of start-up preparation activities (experience in the same industry), total start-up cost, and start-up motive (I want to run a business myself) in that order. As revealed in previous studies, sales are the most important variable used as an indicator of business performance as the factor that has the greatest influence on the sustainability of small businesses. As an academic implication of this study, it is relevant that a predictive model composed of a number of explanatory variables was derived from using a machine learning algorithm (RandomForest), which was rarely used in previous studies. Additionally, in most of the previous studies, there were limitations due to the restricted sample composition or the total sample size. It is also meaningful to use a variety of 45 explanatory variables based on the variables verified in previous studies when setting the explanatory variables. As a practical implication, it is meaningful in that the importance of 45 explanatory variables can be analyzed to provide a basis for the government or local governments to prepare countermeasures or support systems for the sustainability of small businesses. Start-up preparation is the key to the success of a business, and various consulting on preparation for start-up by the government or local governments will be effective for business sustainability of small businesses so that the preparation for start-up can be made more faithfully. As a limitation of the study, this study used the 「2019 Small Business Survey」, but only 14,692 out of 38,169 data were used. There was a limit to the study due to the entire data could not be used for analysis. Since the analysis was performed using only cross-sectional data, which is a one-time data, there is a limit to clearly clarifying the relationship between the project preparation stage and the project operation stage. 본 연구는 랜덤 포레스트 머신러닝 알고리즘을 활용하여 소상공인 사업 지속가능성 여부를 예측하는 모형을 제시하고 모형의 예측 성과를 평가하며, 예측에 기여하는 요인들의 특성을 파악하는 것을 목적으로 한다. 실증분석에는 중소벤처기업부와 통계청이 공동 작성한 「2019년 기준 소상공인 실태조사」데이터를 활용하였으며, 결측치가 없는 데이터를 만들기 위해 2013년~2018년 사이의 신규창업업체 14,692개를 대상으로 선정하였다. 예측 모형은 선행연구에서 소상공인의 창업준비, 경영성과, 지속가능성 등에 영향을 미치는 것으로 검증된 변수에 대해 45개의 설명변수를 설정하였다. 소상공인 사업 지속가능성 모형의 예측 성과는 소상공인의 지속운영을 옳게 분류한 정확도가 91.06%, 지속운영을 생각하는 소상공인이 지속한다고 예측한 민감도가 95.0%로 나타났다. 지속운영 생각을 가진 소상공인이라고 예측한 결과가 맞을 확률인 정밀도는 88.21%, 민감도와 정밀도의 조화평균인 F1-Score는 91.48% 그리고 거짓 양성비율에 대한 참 양성비율을 측정한 ROC-AUC 점수는 91.02%로 나타났다. 본 연구의 결과는 랜덤포레스트를 활용하여 성과를 제시한 사회과학 연구들에 비견되거나 우수하다고 할 수 있다. 예측에 기여하는 설명변수의 중요도는 순서대로 매출액, 창업동기(수입이더많을것같아서), 창업준비활동중요성(동종업종종사경험), 총창업비용, 창업동기(사업을직접경영하고싶어서) 순이었고 매출액은 소상공인 사업 지속가능성에 가장 많은 영향을 미치는 요인으로 선행연구에서 밝혀진 바와 같이 경영성과의 지표로 사용되는 가장 중요한 변수이다. 본 연구의 학문적 시사점으로는 선행연구에서 드물게 사용한 머신러닝 알고리즘(랜덤포레스트)을 활용하여 다수의 설명변수로 구성된 예측모형을 도출하였다는 것에 의의가 있다. 그리고 대부분의 선행연구에서는 표본 구성이 지역적으로 한정되거나 전체 표본 규모가 제한되어 한계점이 존재하였으나 본 연구에서는 전국을 대상으로 실시한 「2019년 기준 소상공인 실태조사」를 사용하여 대량의 패널데이터를 사용하였다. 설명변수 설정 시 선행연구에서 검증된 변수에 근거하여 다양한 45개의 설명변수를 사용한 것도 의미가 있다고 볼 수 있다. 실무적 시사점으로는 45개 설명변수의 중요도를 분석하여 소상공인 사업 지속가능성을 위한 정부나 지자체의 대책마련이나 지원제도에 대한 근거를 마련할 수 있다는 점에서 의미가 있다. 창업준비는 사업의 성공을 판가름하는 열쇠로 창업준비를 좀 더 충실하게 할 수 있도록 정부나 지자체의 창업준비에 대한 다양한 컨설팅이 소상공인 사업 지속가능성에 주효할 것이다. 연구의 한계점으로 본 연구는 「2019 소상공인 실태조사」를 활용하였으나 38,169개의 데이터 중 14,692개만 사용하였는데, 이는 2013년~2018년 사이의 신규창업 사업체만 응답을 하는 설문문항(창업준비, 창업과정어려움 등)을 사용하기 위함이었으나 전체 데이터를 분석에 활용하지 못한것에 연구의 한계가 있다. 1회성 자료인 횡단면 자료만을 이용하여 분석을 수행하였기 때문에 사업준비단계와 사업운영단계의 관계를 명확히 규명하는데에는 한계가 있다.
AI 정수장 구현을 위한 머신러닝 기반의 잔류염소 예측모형 평가
송진우 인하대학교 공학대학원 2023 국내석사
최근 수돗물에 대한 관심이 높아지면서 수돗물의 품질을 보장하기 위해 인공지능(AI) 기술을 활용하여 정수 공정을 최적화하는 방안이 연구되고 있다. 본 연구에서는 정수장의 정수처리공정에서 수량 및 수질데이터를 실시간으로 모니터링하고, 염소소독 공정을 지능적으로 제어하기 위한 목적으로, 침전지 유출구간에서 잔류염소 농도를 안정화시키는 머신러닝 모델을 개발하였다. 머신러닝 모형은 과거의 데이터를 학습하여 미래의 수질을 예측할 수 있는 강력한 기법으로, 복잡한 물리적, 화학적, 생물학적인 수질모형과 비교하여 간단하고 효율적이다. 본 연구에서는 다중회귀모형과 인공지능 알고리즘 중 인공신경망, 랜덤포레스트를 이용하여 부평정수장(B)의 침전지 유출구간에서의 잔류염소 농도를 예측하고, 그 결과를 비교 분석하였다. 정수장 염소농도예측 머신러닝 모델 개발을 위해 침전지 전단 잔류염소 농도, 수온, 탁도, pH, 전기전도도, 유입량, 알칼리도 등을 입력변수로 사용하였고, 침전지 잔류염소 농도를 출력변수로 사용하였다. 검증 결과 정수장에서는 랜덤포레스트 모델이 가장 정확한 예측을 수행한 것으로 나타났다. 수학적 모형인 다중회귀모형은 적합도 측면에서 가장 낮은 성능을 보였다. 이는 수량과 수질데이터의 스케일이나 차원의 차이와 계절별 수질변화에 따른 염소투입량의 변동성 때문인 것으로 추정된다. 따라서, 정수장 정수처리공정에서 인공지능 알고리즘 적용을 위해서는 랜덤포레스트와 같은 결정트리 기반의 모델이 적합한 것으로 판단된다. 본 연구의 결과를 바탕으로 정수장의 정수처리공정에서 염소주입량을 실시간으로 조절함으로써 침전지 유출구간에서 잔류염소 농도를 일관되게 유지할 수 있을 것으로 기대된다. In recent years, there has been an increased interest in tap water, leading to the exploration of artificial intelligence (AI) technology for optimizing the water purification process and ensuring water quality. This study focuses on the development of a machine learning model to maintain stable residual chlorine concentrations in the effluent of the sedimentation basin. The aim is to enable real-time monitoring of water quantity and quality data, as well as intelligent control of the chlorination process at Water Purification Plant B in Bupyeong-gu, Incheon. Machine learning models offer a powerful approach to predicting future water quality by leveraging historical data. They are often simpler and more efficient compared to complex physical, chemical, and biological water quality models. In this study, we employed various artificial intelligence algorithms, including multiple regression, artificial neural networks, and random forest, to forecast the residual chlorine concentration in the effluent of the sedimentation basin at the Water Purification Plant. Subsequently, we compared and analyzed the obtained results. To develop a machine learning model for predicting chlorine concentration in a Water Purification Plant, several input variables were utilized, including settling tank shear residual chlorine concentration, water temperature, turbidity, pH, electrical conductivity, inflow volume, and alkalinity. The output variable was the settling tank residual chlorine concentration. The results demonstrated that the random forest model yielded the most accurate predictions for the Water Purification Plant. The multiple regression model exhibited the worst goodness of fit among the tested mathematical models. This outcome is attributed to the variations in scale and dimensionality of the water quantity and quality data, as well as the variability in chlorine input caused by seasonal changes in water quality. The results of the multiple regression analysis showed the lowest performance in terms of goodness of fit. Based on the findings of this study, it can be concluded that a decision tree-based model, such as a random forest, is well-suited for the application of artificial intelligence algorithms in the water purification process of a Water Purification Plant. These results suggest that by adjusting the chlorine injection amount in real time, the residual chlorine concentration in the effluent of the sedimentation basin can be consistently maintained. This study highlights the potential of utilizing machine learning techniques to optimize the water purification process and ensure the desired water quality standards at Water Purification Plants.
랜덤포레스트를 이용한 생존분석에서의 상관예측변수 중요도 개선
랜덤포레스트는 분류와 회귀문제에서 종종 사용되는 앙상블 방법론으로 여러 의사결정나무를 융합함으로써 예측력을 높여준다. 융합으로 인한 해석의 문제점은 각 변수의 변수중요도를 평가하여 제공함으로 해결한다. 랜덤포레스트-생존모형은 랜덤포레스트의 장점을 바탕으로, 생존분석에 적용한 방법론이다. 하지만 랜덤포레스트를 적용할 때 예측변수간 상관관계가 있을 경우, 변수중요도가 하향 편향된다는 사실이 알려져 있다. 특히 랜덤포레스트-생존모형에서는 예측변수 간 선형상관관계 뿐만 아니라 비선형상관관계가 있을 경우에도 변수중요도가 하향 편향될 수 있다. 따라서 우리는 기존의 변수중요도를 구하는 알고리즘을 수정하여 변수중요도가 하향 편향되는 문제를 해결한다. 모의실험과 실제사례를 통해 두 개선 알고리즘이 하향 편향된 변수중요도를 개선하는 것을 설명한다. 특히 모든 변수의 변수중요도를 상향하는 것이 아닌, 선형 및 비선형관계의 예측변수가 개별적으로 중요한 변수인 경우에만 변수중요도를 상향한다. 이를 통해 본 논문에서 제시하는 두 알고리즘의 의의성을 확인한다. Random forest is an ensemble method often used in classification and regression problems. It increases predictive power through fusing several decision trees. The problem of interpretation due to fusion is solved by evaluating and providing the importance of each variable. Random survival forest is a method applied to survival analysis based on the advantages of random forest. However, it is known that when applying a random forest, the importance of the variable is biased downward if there is a correlation between predictors. In particular, in the random survival forest, the importance of variables may be biased downward when there is a nonlinear correlation as well as linear correlation between predictors. Therefore, we solve the problem of downward bias in variable importance by applying different methods to each existing algorithm. Through simulations and real data, it can be illustrated that the two modified algorithms improve the importance of downward biased variables. In particular, it does not increase the importance of all variables, but increases the importance of variables only when the predictors of linear and nonlinear relationships are individually important variables. Through this, the improvement of the two proposed algorithms presented is confirmed.
기업의 국가기술자격증 우대현황에 미치는 영향요인 분석 : 2022년도 수험자 기초통계를 중심으로
최호준 고려대학교 정책대학원 2024 국내석사
The National Technical Qualification System was established in 1973 with the enactment of the National Technical Qualifications Act. Currently, over 1.5 million individuals take exams annually, utilizing certifications across various fields. Given the recent emphasis on employment and job changes in the hiring market, it is necessary to understand how certifications are practically utilized in corporate settings. This study aims to analyze the preferential treatment and content of preferential treatment for certifications from the perspective of examinees, using survey data from candidates registering for the 2022 national technical qualification exams on Q-Net (www.q-net.or.kr). Independent variables include 'qualification grade,' 'company size,' and 'applicant age,' while dependent variables are 'preference status at workplace' and 'content of workplace preference.' The analysis is based on responses from 1,345,548 individuals who answered the question about 'preference status at workplace' from the 2022 examinee basic statistics data. For the 'content of workplace preference,' responses from 827,023 individuals who answered 'preferred' in the 'preference status at workplace' question were used. The analysis involved conducting a significance test using the chi-square test, followed by logistic regression analysis, random forest model, SVM model, and LightGBM model. The goal was to identify the model with the highest accuracy and F1 score and determine the most significant variables affecting the preferential treatment and content of preferential treatment for certifications. 국가기술자격제도는 1973년에 국가기술자격법이 만들어짐에 따라 현재는 150만명 이상의 사람들이 매해 시험에 응시하여 다양한 분야에서 자격증이 활용되고 있다. 특히 취업 및 이직 등이 채용시장에서 화두가 된 최근 상황에서 자격증이 실제 기업현장에서 어떻게 활용되는지를 파악할 필요가 있다고 보인다. 본 연구는 큐넷(www.q-net.or.kr)에서 2022년 국가기술자격시험을 접수하는 수험자를 대상으로 하는 설문자료를 기초로 하여 ‘자격등급’ ‘사업장규모’ ‘응시연령’을 독립변수로 하고 ‘근무처 우대여부’ ‘근무처 우대내용’을 종속변수로 하여, 자격증을 수요하는 수험자의 입장에서 체감하고 있는 자격증 우대여부 및 우대내용을 분석하고자 한다. 분석 자료는 2022년 수험자 기초통계 자료에 기초하여 ‘근무처 우대여부’에 답변한 1,345,548명의 답변을 대상으로 하였으며, ‘근무처 우대내용’의 경우 ‘근무처 우대여부’에서 ‘우대함’에 답변한 827,023명을 대상으로 하였다. 분석 데이터에 대해 카이제곱검정을 통한 유의성 검사를 실시한 이후 로지스틱 회귀분석, 랜덤포레스트 모형, SVM 모형, Lightgbm 모형으로 분석하여 최종적으로 가장 정확도와 F1 score가 높은 모형을 검토하고, 자격증 우대여부 및 우대내용에 있어 가장 중요도가 높은 변수가 무엇인지 파악하고자 하였다.
인턴십 지원자의 기계학습기반 취업예측 모델개발 : 명지대학교 사례
명지대학교 산학인재개발원 IPP(Industry Professional Practice)센터에서는 3~4학년 학생들이 4~6개월 실습기간을 통해 채용무관 형 및 채용연계 형으로 지원하는 IPP 인턴십과, 1년동안 실습 기간을 통해 채용연계 형으로 지원하는 일학습병행 인턴십 프로그램을 진행하고 있다. 본 연구는 이러한 인턴십 프로그램을 지원하는 학생들의 취업 가능성을 파악하기 위해 취업 예측모델을 개발하였다. 여기서는 기계학습 기반으로 학생 데이터, 자기소개서 및 기업규모 데이터를 통합하여 대기업 및 중견기업이상 취업 여부를 예측하는 모델을 개발하였다. 데이터 수집은 2017년부터 2021년까지 IPP(장기현장실습)에 지원한 학생들 데이터와 2018년부터 2021년까지 일학습병행에 지원한 데이터를 수집하였다. 데이터수집 방법은 학생들이 지원한 회사에 대해 전문교수와 상담을 통해서 작성한 이력서와 자기소개서를 중심으로 데이터를 수집하였고 부족한 데이터 부분은 설문조사와 전화인터뷰를 통해 보완하였다. 데이터 수집 및 정제를 통해 IPP 경험자 219명, 일학습병행 경험자 154명, 두 인턴십을 지원했으나 탈락했거나 인턴십을 경험하지 못한 자 135명 등 총 508명의 데이터를 취업모델개발에 사용하였다. 평가모델은 기계학습 모델 중 기업규모에 따른 합격률 예측이 용이한 로지스틱 회귀모형, 랜덤포레스트, Light GBM(Gradient Boosting Model)과 자기소개서 텍스트 분석이 가능한 Word2Vec 모델, BERT(Bidirectional Encoder Representations from Transformers) 모델을 통합하여 사용하였다. 모델의 독립변수는 선행 논문조사와 IPP 및 일학습병행을 통해 채택한 데이터로 성별, 전공계열, 전공일치, 입학유형, 평균학점, 교환학생, 공학인증, 어학점수, 비교과활동, IPP, 일학습병행, 인턴십 경험 무, 전공활동, 자격증&수상, 해외연수 등 15개 독립변수와 Word2Vec 모델(200차원)과 BERT(Bidire- ectional Encoder Representations from Transformers) 모델(768차원)을 사용해 자기소개서를 백터로 변환한 독립변수로 구성된다. 종속변수는 취업기업의 유형으로서 대기업, 중견기업이상, 미취업으로 구분한다. 이 변수를 이용하여 로지스틱 회귀모형, 랜덤포레스트, Light GBM, Word2Vec, BERT 모델을 사용해 대기업합격 및 중견기업이상 합격 정확도와 F1_Weighted를 평가, 분석과 검증으로 취업 예측 모델을 개발하였다. 모델 개발을 위해 데이터 중 70%,는 학습데이터로, 30%는 테스터 데이터로 사용하였으며, 샘플링방법은 원 데이터, 언더샘플링, 오버샘플링, SMOTE(Synthetic Minority Over-sampling Technique), ADASYN (Adaptive Synthetic Sampling) 방법을 적용했다. 취업예측 모델에 자기소개서를 포함했을 경우, 대기업 합격, 중견기업이상 합격 정확도에서 F1_Weighted 평균 정확도가 각각 82.24%, 73.23%로서 자기소개서를 포함하지 않았을 때보다 정확도가 5.23%, 2.72% 개선되었다. 또한 44명의 새로운 데이터를 이용하여 예측성능 평가를 한 결과, 대기업 합격, 중견기업이상 합격 정확도에서 F1_Weighted 평균 정확도가 각각 70.69%, 74.55%로 나타났으며 취업예측 모델이 잘 개발되었음을 확인하였다. 향후에 추가적으로 보완해야 할 부분으로, 학생들의 면접교육 항목, 기업들의 면접항목 및 면접결과 대한 내용들이 포함될 것으로 판단된다. 면접은 특히 회사마다 직무에 맞게 진행하기 때문에 심도 있는 연구와 면접 사례 개발이 필요하다. 현재 2차 년도 사업기간이 2022년 1월부터 2024년 12월까지 3년 기간 동안 진행되고 있으며 이 기간 동안에 위에서 서술한바와 같이 면접에 대한 관련 데이터를 확보하여 정확도가 우수한 취업예측 모델을 만들어 나갈 예정이다. Myongji University Industry-University Human Resources Development Center IPP (Industry Professional Practice) Center offers IPP internships and IPP internships that 3rd and 4th grade students apply through 4 to 6 months of practical training, regardless of employment or employment-related, We are running a work-learning parallel internship program that supports recruitment through a one-year internship period. In this study, an employment prediction model was developed to identify the employability of students who apply for these internship programs. Here, a model was developed to predict whether or not to be employed in large and medium-sized companies by integrating student data, self-introductions, and company size data based on machine learning. Data collection collected data from students who applied for IPP (Industry Professional Practice) from 2017 to 2021 and data applied for work-study parallelism from 2018 to 2021. As for the data collection method, data were collected centered on resumes and self-introductions written by the students in consultation with a professional professor for the company to which they applied, and the missing data part was supplemented through surveys and telephone interviews. Through data collection and refinement, a total of 508 data including 219 people with IPP experience, 154 people with work-study experience, and 135 people who applied for two internships but failed or did not experience an internship were used to develop the employment model. The evaluation model is used the machine learning models according to the size of the company. The logistic regression model, random forest, and light GBM (Gradient Boosting Model), which are easy to predict the pass rate, and the Word2Vec model and BERT (Bidirectional Encoder Representations from Transformers) model that can analyze the text of the self-introduction were integrated and used. The independent variable of the model is data adopted through prior thesis research, IPP and work-study parallel. 15 independent variables are gender, major, match of major, admission type, average grade point average, exchange student, engineering certification, language credit, extracurricular activity, IPP, work-study parallelism, no internship experience, major activity, certificate & award, and overseas training. To use Word2Vec model (200-dimensional) and BERT (Bidirectional Encoder Representations from Transformers) model (768-dimensional), self introduction is composed of independent variables converted into vectors. The dependent variable is the type of employed company, and it is divided into large company, medium-sized company and higher, and unemployed. Using this variable, logistic regression model, random forest, light GBM model, Word2Vec and BERT, a job prediction model was developed by evaluating, analyzing, and verifying the accuracy and F1_Weighted of passing large companies and medium-sized companies. For model development, 70% of the data was used as training data and 30% as test data. As for the sampling method, raw data, undersampling, oversampling, SMOTE (Synthetic Minority Over-sampling Technique), and ASYN (Adaptive Synthetic Sampling) methods were applied. When self-introduction is included in the employment prediction model, the average accuracy of F1_Weighted is 82.24% and 73.23% in the accuracy of passing large companies and medium-sized companies, respectively, and the accuracy is improved by 5.23% and 2.72% compared to when the self-introduction letter is not included. In addition, as a result of evaluating the predictive performance using new data of 44 people, the average F1_Weighted accuracy was 70.69% and 74.55% in the accuracy of passing large companies and medium-sized companies or higher, respectively, and it was confirmed that the employment prediction model was well developed. As a part to be supplemented in the future, it is judged that the contents of the interview training items for students, the interview items of companies and the interview results will be included. In-depth research and development of interview cases are necessary because interviews are conducted especially for each company. Currently, the second year of the project is being conducted for three years from January 2022 to December 2024. During this period, as described above, we plan to create a high-accuracy job prediction model by securing relevant data about the interview.
프로세스 데이터 활용 수학 학업성취도 예측 변인 비교 : 선형회귀와 랜덤 포레스트 접근
우예진 이화여자대학교 대학원 2025 국내석사
With the advancement of technology, the shift from traditional paper-based assessments to computer-based testing (CBT) has accelerated, enabling the efficient collection of diverse process data. In the field of learning analytics, such data are increasingly used to predict students' academic achievement and design intervention strategies to prevent dropouts—especially in online learning environments, where their importance is even more pronounced. To interpret process data reliably, it is essential to recognize that students' response patterns may vary depending on item characteristics such as cognitive level, item type, discrimination, and difficulty. Accordingly, this study categorizes process data based on these characteristics and constructs prediction models for mathematics achievement. Linear regression and random forest techniques are applied to compare model performance and identify key predictors, with the aim of improving both predictive accuracy and interpretability. This approach holds significance in its effort to capture the interaction between item characteristics and process data more precisely—distinguishing it from previous studies. This study utilized data from Korean students who participated in the mathematics domain of the PISA 2022, focusing on CBT items. The dependent variables were the ten plausible values (PVs), and for each PV, prediction performance metrics (RMSE, MAE, MSE, R2) were calculated. The final model evaluation was based on the average of these ten values. Independent variables included 27 background variables identified through a systematic literature review by Wang et al.(2023), as well as process data reconstructed by item characteristics (cognitive level, item type, discrimination, and difficulty). The process data were generated by computing average response times and the average number of actions for each item category. Variables with multicollinearity issues were excluded from the analysis. A total of six models were constructed based on different combinations of item characteristics and analysis methods, allowing for comparative analysis of model performance and key predictors. Missing data were addressed using a combination of listwise deletion and K-nearest neighbors(KNN) imputation. After determining the optimal k values, 39 variables with low missing rates were imputed with k=10, while a variable with a high missing rate (ST293Q01JA) was imputed with k=5. For continuous variables with high skewness or kurtosis, log transformation was applied, and all continuous independent variables were standardized for linear regression only. Using the refined dataset, mathematics achievement prediction models were constructed in Python utilizing linear regression and random forest algorithms. The dataset was randomly split into training (80%) and test (20%) sets. Linear regression was implemented with default settings, while hyperparameter tuning for the random forest model involved adjusting n_estimators (100, 300, 500, 1,000) and max_features ('sqrt', 'log2') using GridSearchCV and five-fold cross-validation. Model performance was evaluated based on RMSE, MAE, MSE, and R2. Finally, the consistency between the two methods was assessed using top-10 and top-20 variable overlap rates and Spearman’s rank correlation coefficients across the six models. Key predictors were further examined by ranking standardized coefficients in linear regression and feature importances in random forest. Repeatedly influential variables and method-specific predictors were analyzed for each item characteristic-based model, offering insights into both shared and distinct factors influencing mathematics achievement. The main findings derived using the above methodology are summarized as follows. First, a comparison between linear regression and random forest in predicting mathematics achievement revealed that random forest consistently outperformed linear regression. In all six models, random forest exhibited lower error metrics (RMSE, MAE, MSE) and higher R2, suggesting that non-linear models such as random forest are particularly advantageous when handling complex, non-linear interactions among predictor variables—such as those involving item characteristics and process data. Second, when comparing the predictive performance of models based on item characteristics, models 2 through 6 consistently outperformed model 1. Model 1, which included only student background variables, showed the lowest performance across all metrics. In contrast, models 2 through 5, which incorporated process data classified by cognitive level, item type, discrimination, and difficulty, each demonstrated a consistent improvement in predictive power. Although model 6—an integrated model including process data classified by all item characteristics—contained the largest number of predictors, its performance showed only a marginal improvement compared to models 2–5. Chi-square and Cramér’s V analyses revealed significant correlations among process data classified by cognitive level, item difficulty, and item discrimination, indicating that overlapping variables may have weakened the independent contribution of each factor, thereby limiting the model’s overall predictive performance. Third, the top 20 predictors identified in each item-characteristic-based model using linear regression showed that process data held strong predictive power in models 2 through 6. With few exceptions, all process variables ranked within the top 20 across models. In particular, the average response time on high-cognitive-level items, average response time on low-discrimination items, and average number of actions on high-difficulty items emerged as strong predictors across all models. At the individual level, mathematics self-efficacy consistently ranked first and even surpassed process data in predictive strength. At the family level, socioeconomic status maintained a high ranking in all models, while at the school level, average school-level ESCS was consistently ranked between second and fifth place, indicating a stable and significant influence. Fourth, in the random forest models, all process data variables included in models 2 through 6 ranked within the top 20 predictors, reaffirming their strong predictive power. In particular, the average response time for high-difficulty items, low-discrimination items, and high-cognitive-level items were among the most influential predictors across all models. At the individual level, basic/applied mathematics self-efficacy consistently ranked first or second, often showing predictive power equal to or greater than that of the process data. Although mathematics self-efficacy related to reasoning and 21st-century competencies ranked slightly lower, it was still identified as an influential predictor. At the family level, both ESCS and home possessions showed moderate but stable predictive power. At the school level, average school-level ESCS remained among the top three to eight predictors across all models, highlighting its strong and consistent impact. Fifth, a quantitative comparison of variable consistency between the linear regression and random forest models revealed a moderate to high degree of agreement. On average, 6.5 to 8 variables overlapped within the top 10 predictors across models, and 14.2 to 15.7 variables overlapped within the top 20. The Spearman’s rank correlation coefficient for overall variable importance rankings ranged from 0.54 to 0.58 for models 2 through 6, indicating a generally strong level of similarity between the two methods. Sixth, an analysis of the top 10 predictors across models 1 to 6 showed that process data variables representing response behavior consistently appeared among the most important predictors in both linear regression and random forest models. Specifically, variables such as the average response time on high-cognitive-level items, the average number of actions on high-difficulty items, the average response time or number of actions on low-discrimination and the average response time of low-cognitive items were consistently ranked within the top 10. These findings suggest that students’ response behaviors vary according to item characteristics such as cognitive level, difficulty, and discrimination, and these behaviors are closely associated with achievement outcomes. At the individual level, mathematics self-efficacy ranked first or second in all models, emerging as a powerful single predictor. At the family level, socioeconomic status was a common predictor in models 1 to 5. While other family-level indicators such as home possessions were considered, ESCS was the most consistently important predictor of students’ socioeconomic background. At the school level, average school-level ESCS was consistently identified as a top predictor across all models. Seventh, an analysis of variables identified exclusively by either linear regression or random forest revealed method-specific patterns. While process data variables showed no strikingly different selection patterns between the methods, differences were notable in background variables. At the individual level, linear regression repeatedly identified math anxiety and tardiness as key predictors in models 2, 3, and 4. In contrast, random forest consistently selected reasoning and 21st-century-related self-efficacy across all models. At the family level, the highest level of parental education emerged as a key variable in linear regression, whereas home possessions was prioritized in random forest. At the school level, linear regression emphasized quantitative opportunity indicators such as weekly math instruction time, while random forest emphasized qualitative engagement indicators, such as participation frequency in class discussions. In summary, this study empirically confirmed that process data derived from item characteristics function as stable and consistent predictors of mathematical achievement, regardless of the analysis method employed. Models 1 through 6 demonstrated that process data based on various item attributes—such as cognitive level, item type, discrimination, and difficulty—significantly contributed to prediction accuracy. Notably, even though model 6 integrated multiple item characteristics, its performance did not substantially improve, suggesting that process data based on a single characteristic can still yield highly effective predictions. Mathematics self-efficacy also emerged as the most influential predictor across all models, underscoring the strong connection between learners' perceived competence and their actual performance. This finding highlights the need for instructional strategies that not only deliver content but also support students' cognitive beliefs and emotional engagement. Furthermore, both household- and school-level predictors that consistently ranked in the top 10 were related to socioeconomic status, indicating that economic factors operate structurally across individual, family, and institutional contexts in shaping academic achievement. This supports existing research showing that economic disparities persist as a significant driver of educational inequality. Differences in predictor selection across method-models also reflect the structural characteristics of each analysis method, suggesting limitations in relying on a single modeling approach. For more robust and nuanced predictions, future research should adopt multiple analytical techniques and conduct integrated interpretations that consider both common and method-specific predictors. In particular, the superior performance of random forest in capturing complex, nonlinear interactions implies that advanced machine learning techniques may be more suitable for analyzing process data. Based on these findings, several directions for future research are proposed. First, a broader range of modeling techniques—including XGBoost, SVM, and other modern algorithms—should be compared. Second, while this study focused on total response time and the number of action, future work should incorporate other types of PISA process data (F, V, VS variables) and sequential/time-series information. Third, because item characteristics can be perceived differently depending on the learner's ability, motivation, and strategy, prediction models should reflect learner-centered item characteristics’ classifications. Finally, as this study included only a limited set of background variables, future studies should expand to incorporate more emotional and psychological factors, especially within the family context. 최근 기술 발전에 따라 전통적인 지필 평가에서 컴퓨터 기반 평가로의 전환이 가속화되면서, 다양한 프로세스 데이터를 손쉽게 수집할 수 있게 되었다. 학습분석학에서는 이러한 데이터를 활용해 학업성취를 예측하고 중도탈락을 방지하는 개입 전략을 설계하며, 이는 특히 온라인 학습 환경에서 그 중요성이 더욱 부각되고 있다. 이러한 데이터를 신뢰도 있게 해석하기 위해서는 문항의 인지 수준, 유형, 변별도, 난이도에 따라 학습자의 반응 양상이 달라질 수 있음을 고려하여, 문항 특성에 따른 세분화된 분석이 필요하다. 이에 본 연구는 다양한 문항 특성에 따라 프로세스 데이터를 구분하고, 이를 기반으로 수학 학업성취 예측모형을 구축한 뒤, 분석 기법(선형회귀, 랜덤 포레스트)에 따라 모형 성능과 주요 예측 변인을 비교·분석함으로써 예측의 정확성과 해석력을 높이고자 한다. 이러한 접근은 문항 특성과 프로세스 데이터 간의 상호작용을 정교하게 반영하여 학업성취를 예측했다는 점에서 기존 연구와의 차별성을 지니며 의의가 있다. 본 연구는 국제 대규모 평가인 PISA 2022의 수학 영역 중 한국 학생이 응답한 컴퓨터 기반 검사 데이터를 활용하였다. 종속변수는 PISA에서 제공하는 수학 성취수준 10개 유의 측정값이며, 각 측정값별로 예측 성능 지표(RMSE, MAE, MSE, R2)를 산출한 후, 그 평균값을 최종 성능지표로 사용하였다. 독립변수는 Wang et al.(2023)의 체계적 문헌고찰을 기반으로 선정한 27개의 학습자 배경변인과, 인지 수준, 문항 유형, 변별도, 난이도에 따라 재구성한 프로세스 데이터로 구성된다. 프로세스 데이터는 문항 특성별로 응답시간과 동작횟수의 평균값을 산출해 생성되었으며, 다중공선성이 확인된 일부 변인은 제외하였다. 최종적으로 설계된 6개의 모형은 문항 특성에 따라 구분되며, 분석 방법별, 문항 특성에 따른 모형별로 예측 성능과 주요 변수의 차이를 비교 분석하였다. 결측치 처리는 완전제거법과 KNN 보간법을 병행하여 적용하였으며, 최적의 k값 탐색 후 결측률이 낮은 변수 39개는 k=10, 높은 변수(ST293Q01JA)는 k=5로 별도로 보간하였다. 이후 연속형 변수 중 왜도와 첨도가 높은 변수에 대해서는 로그 변환을 수행하였고, 모든 연속형 독립변수는 선형회귀에 한해 표준화를 통해 스케일을 통일하였다. 정제된 데이터를 활용해 Python을 기반으로 수학 학업성취 예측모형을 구축하였으며, 선형회귀와 랜덤 포레스트 기법을 활용하였다. 8:2 비율로 훈련용과 테스트용으로 분할한 후, 선형회귀는 기본 설정으로, 랜덤 포레스트는 n_estimators(100, 300, 500, 1,000)와 max_features(‘sqrt’,‘log2’)를 대상으로 하이퍼파라미터 튜닝을 실시하였다. GridSearchCV와 5겹 교차검증을 통해 최적 조합을 도출하고, RMSE를 기준으로 성능을 평가하였다. 이를 통해 도출된 최적의 예측모형에 대한 평가는 RMSE, MAE, MSE, 결정계수(R2)를 활용하여 이루어졌다. 최종 예측모형을 분석 방법별, 문항 특성별로 상위 10개 및 20개 변수의 일치율과 Spearman 순위 상관계수를 활용해 두 기법 간 일관성을 검토하였다. 또한 예측모형별 주요 변인을 분석하기 위해, 선형회귀에서는 표준화 회귀계수의 절댓값을, 랜덤 포레스트에서는 변수 중요도를 기준으로 반복적으로 중요하게 나타난 핵심 변수와 기법별로 특화된 차별 변인을 문항 특성별 모형에 따라 분석하였다. 위의 방법을 활용하여 도출한 주요 결과들을 정리하면 다음과 같다. 첫째, 수학 학업성취도 예측을 위해 선형회귀와 랜덤 포레스트를 비교 분석한 결과, 랜덤 포레스트가 선형회귀보다 더 우수한 예측 성능을 보이는 것으로 나타났다. 모든 모형 1~6에서 랜덤 포레스트는 선형회귀에 비해 오차 지표(RMSE, MAE, MSE)가 낮았으며, 결정계수(R2)는 더 높게 나타났다. 이는 문항 특성 및 프로세스 데이터와 같이 변수 간 상호작용이 복잡하고 비선형적인 구조를 내포한 변인들에서는, 랜덤 포레스트와 같은 비선형 기반 모델의 장점이 더욱 발휘될 수 있다는 점을 보여준다. 둘째, 문항 특성별 예측모형의 성능을 비교하였을 때, 모형 1에 비해 모형 2~6의 예측 성능이 더 뛰어난 것으로 드러났다. 먼저, 학습자 배경변인만을 활용한 모형 1은 모든 분석 지표(RMSE, MAE, MSE, R2)에서 가장 낮은 성능을 보였다. 반면, 모형 2~5는 각각 문항의 인지적 수준, 문항 유형, 변별도, 난이도를 기준으로 프로세스 데이터를 세분화하여 구성된 모형으로, 모형 1에 비해 예측 성능이 일관되게 향상되었다. 한편, 모형 6은 모형 2~5에 투입된 여러 문항 특성에 따른 프로세스 데이터를 통합한 종합모형으로 가장 많은 독립변인을 포함하였지만, 예측 성능은 모형 2~5 대비 소폭의 향상에 그쳤다. 카이제곱 검정 및 Cramér’s V 분석 결과, 인지적 수준과 문항 난이도에 따른 프로세스 데이터, 문항 난이도와 문항 변별도에 따른 프로세스 데이터 간에 유의미한 상관이 존재하는 것으로 나타났다. 이는 모형 내에서 발생한 변수 간 중복성이 변수의 독립적 영향력을 약화시켜 모형의 예측 성능의 개선 폭이 제한되었다는 점을 보여준다. 셋째, 선형회귀 분석 기반 문항 특성별 예측모형별 상위 20개 예측 변인을 파악한 결과, 문항 특성별 프로세스 데이터는 모형 2~6에서 특히 강력한 예측력을 보였다. 이러한 프로세스 데이터는 전반적으로 일부 변인을 제외하고 모두 상위 20위권 안에 포함된다. 그 중에서도 고차 인지 문항 평균 총 응답시간, 낮은 변별도 문항 평균 총 응답시간, 높은 난이도 문항 평균 총 동작횟수는 모형 전반에서 높은 예측력을 보였다. 개인 수준에서는 수학 자기효능감(기초/응용)이 대부분의 모형에서 1위에 위치하며, 프로세스 데이터보다도 높은 예측력을 보인 핵심 변수로 나타났다. 가정 수준에서는 사회경제문화적 지위가 모든 모형에서 높은 순위를 유지하며, 학교 수준에서는 학교 평균 사회경제문화적 지위가 모든 모형에서 2~5위에 위치하며 일관된 중요도를 보였다. 넷째, 랜덤 포레스트 기반 문항 특성별 예측모형별 상위 20개 예측 변인을 파악한 결과, 모형 2~6에서 투입된 모든 프로세스 데이터 변인들이 상위 20위 안에 포함되며 전반적으로 문항 특성에 따라 분류된 프로세스 데이터가 가장 강력한 예측력을 가지는 변수군으로 나타났다. 특히, 높은 난이도 문항 평균 총 응답시간, 낮은 변별도 문항 평균 총 응답시간, 고차 인지 문항 평균 총 응답시간은 모형 전반에서 강력한 예측력을 보였다. 개인 수준에서는 수학 자기효능감(기초/응용) 변인이 모든 모형에서 1~2위를 차지하며, 프로세스 데이터와 유사하거나 더 높은 예측력을 보였고, 수학 자기효능감(추론/21C역량)도 기초/응용 수학 관련 자기효능감에 비해 순위는 낮으나 영향력 있는 예측 변인으로 확인되었다. 가정 수준에서는 사회경제문화적 지위와 가정 내 자원 보유 수준이 중위권에서 일정한 예측력을 보였다. 학교 수준에서는 학교 평균 사회경제문화적 지위가 가장 영향력 있는 변수로서 모든 모형에서 상위 3~8위에 안정적으로 포함되었다. 다섯째, 선형회귀와 랜덤 포레스트 예측모형 간의 중요 변수 일치율과 변수 중요도 순위의 유사성을 정량적으로 분석한 결과, 중간 수준 이상의 일치율이 확인되었다. 상위 10위 기준에서 모형별로 평균 6.5~8개의 변수가 일치하였으며, 상위 20위 기준에서는 평균 14.2~15.7개의 변수 일치를 보였다. 전체 변수 순위 간 Spearman 순위 상관계수를 활용한 분석에서는, 모형 2~6이 0.54~0.58 수준의 중간 이상의 상관을 보였으며 전체적으로 높은 수준의 유사성을 나타냈다. 여섯 번째, 문항 특성별 예측모형 1~6에서 도출한 상위 10개 주요 예측 변인을 기준으로 선형회귀와 랜덤 포레스트 두 분석 기법에서 공통적으로 도출된 중요 예측 변인을 정리한 결과 응답 행동으로 구성된 프로세스 데이터 변인이 모든 모형에서 가장 일관되게 상위 중요 변수로 도출되었다. 특히 고차 인지 문항 평균 총 응답시간, 높은 난이도 문항 평균 총 동작횟수, 낮은 변별도 문항 평균 총 응답시간, 저차 인지 문항 평균 총 응답시간, 낮은 변별도 문항 평균 총 동작횟수는 모형 2~6에서 공통적으로 상위 10위 안에 포함되었다. 이러한 결과는 문항의 인지 수준, 난이도, 변별도와 같은 문항 속성에 따라 학습자의 반응 특성이 달라지며, 이러한 반응 특성이 학업성취도와 밀접한 관련을 맺고 있다는 점을 시사한다. 개인 수준에서는 수학 자기효능감(기초/응용)이 모든 모형에서 1~2위를 차지하며, 단일 변수임에도 불구하고 매우 강력한 예측력을 가진 핵심 변인으로 확인되었다. 가정 수준에서는 사회경제문화적 지위가 모형 1~5에서 공통 변수로 도출되었지만, 통합 모형인 모형 6에서는 제외되었다. 가정 수준에서 학생의 사회경제적 지위를 나타내는 지표로는 가정 내 자원 보유 수준 변수도 존재하지만, 사회경제문화적 지위만이 공통 변수로 등장한 것으로 볼 때, 분석 방법의 특징에 관계없이 일관되게 중요한 변수로서, 학생의 사회경제적 수준을 나타내는 변인은 사회경제문화적 지위임을 보여준다. 학교 수준에서는 학교 평균 사회경제문화적 지위가 모든 모형에서 공통적으로 상위 변수로 도출되었다. 일곱 번째, 문항 특성별 예측모형 1~6에서 도출한 상위 10개 주요 예측 변인을 기준으로 선형회귀와 랜덤 포레스트 두 분석 기법에만 중요 변수로 선정된 예측 변인을 정리한 결과, 프로세스 데이터 변인은 전체적으로 분석 방법 간 일관된 패턴이 두드러지지는 않았다. 개인 수준 변인에서는 선형회귀는 수학 불안과 지각 빈도 변인을 특정 모형(2, 3, 4)에서 반복적으로 주요 변수로 도출한 반면, 랜덤 포레스트에서는 수학 자기효능감(추론/21C역량)이 모든 모형에서 중요 변수로 일관되게 선택되었다. 가정 수준에서는 선형회귀에서 부모의 학력이 반복적으로 도출되었고, 랜덤 포레스트에서는 가정 내 자원 보유 수준이 모든 모형에서 주요 변수로 포함되었다. 학교 수준 변수의 경우, 선형회귀는 주당 수학 수업시간과 같이 정량적 기회 지표를 주요 변수로 도출하였으며, 반면 랜덤 포레스트는 수업 내 토론 참여 빈도와 같은 정성적 참여 및 태도 관련 변인을 주요 예측 변인으로 도출하였다. 이상의 결과를 종합하면, 본 연구는 문항의 정보를 담고 있는 프로세스 데이터가 분석 기법에 관계없이 가장 안정적이고 일관된 핵심 예측 변수군으로 작용함을 실증적으로 확인하였다. 특히 모형 1~6의 분석을 통해, 문항의 인지적 수준, 유형, 변별도, 난이도 등 다양한 특성에 기반한 프로세스 데이터가 모두 학업성취도를 높은 수준으로 예측할 수 있는 것으로 나타났다. 또한 모형 6이 여러 문항 특성을 통합했음에도 성능 향상이 제한적이었던 점은, 단일 문항 특성만을 반영하더라도 프로세스 데이터를 활용한 예측이 효과적임을 시사한다. 수학 자기효능감(기초/응용)도 프로세스 데이터와 마찬가지로 모든 분석 모형에서 일관되게 최상위 예측 변수로 도출되었는데, 이는 학습자의 성취 기대와 과제에 대한 자기 인식이 실제 수행 결과와 밀접하게 연관되어 있음을 의미한다. 이러한 결과는 단순한 지식 전달을 넘어서, 학습자의 인지적 신념을 강화할 수 있는 교수 전략과 정서적 지원이 병행되어야 함을 시사한다. 아울러, 가정 수준과 학교 수준에서 공통적으로 상위 10위 내에 위치한 변인이 모두 사회경제적 지위를 반영하는 지표였다는 점은, 경제적 변인의 영향력이 단지 개인 차원에 국한되지 않고 가정과 학교 환경 전반에서 구조적으로 작용하고 있고, 개인의 학업성취를 예측할 수 있다는 점을 의미한다. 이미 여러 선행연구에서도 경제적 격차가 학업 격차로 이어진다는 결과가 지속적으로 제시되어 왔으며, 본 연구 결과는 이러한 다차원적인 경제적 격차가 학업 성취 예측에서도 유효함을 보여준다. 또한 분석 기법의 특성에 따라 선택되는 주요 예측 변인이 달라질 수 있다는 점은, 예측모형 설계 시 단일 분석 방법에만 의존하는 것에 한계가 있음을 시사한다. 보다 정교하고 포괄적인 예측을 위해서는 다수의 분석 기법을 병행하여 활용하고, 공통 변인과 차별 변인을 모두 고려한 통합적 해석이 필요하다. 특히 본 연구에서 선형회귀에 비해 랜덤 포레스트의 성능이 우수하게 나타난 점은, 프로세스 데이터처럼 변수 간 상호작용이 복잡하고 비선형적인 구조를 효과적으로 포착할 수 있는 분석 기법의 활용할 필요성이 있음을 뒷받침한다. 이러한 시사점을 바탕으로 후속 연구를 위한 제언은 다음과 같다. 첫째, 분석 기법 측면에서 선형회귀와 랜덤 포레스트에 한정되었으며, XGBoost, SVM 등 다양한 최신 머신러닝 기법과의 비교가 향후 필요하다. 둘째, 프로세스 데이터는 총 응답시간과 동작횟수에만 초점을 맞췄으나, 향후에는 PISA의 다양한 프로세스 데이터(F, V, VS 등)과 시계열·순차적 정보도 함께 고려할 필요가 있다. 셋째, 문항 특성은 실제 학습자 체감 수준과 전략적 반응에 따라 학습자에게 다르게 작용할 수 있으므로, 향후 연구에서는 학습자 중심의 문항 특성 분류 기준을 반영한 예측모형 설계가 필요하다. 마지막으로, 본 연구는 개인, 가정, 학교 수준 배경변인을 제한적으로 포함하였기에, 특히 가정 수준에서의 정서·심리적 요인 등을 고려한 분석이 요구된다.