        초,중,고 사교육비 영향요인 분석

        이혜정,송종우,Lee, Hyejeong,Song, Jongwoo 한국통계학회 2014 응용통계연구 Vol.27 No.7

        본 논문에서는 현재 우리 사회에서 큰 이슈가 되고 있는 사교육비에 영향을 미치는 요인을 분석하였다. 사교육비가 논란이 되는 이유 가운데 하나는 각 가정에서 소비되는 전체 교육비 가운데 사교육비가 차지하는 비중이 높으면 경제적으로 교육에 대한 기회균등이 이루어지지 않는 문제를 유발할 수 있기 때문이다. 또한, 과도한 사교육으로 인해 기본적인 학교 교육보다 더 많은 시간과 비용을 할애한다면, 계층 간, 지역 간의 양극화와 더불어 학교의 기능이 저하되는 요인으로 작용할 수 있기 때문이다. 우리는 다양한 회귀분석 방법론과 분류분석 방법론을 이용하여 사교육비에 영향을 미치는 중요변수가 무엇인지를 파악하고 또 각각의 변수들이 어떻게 사교육비에 영향을 미치는 지를 분석하였다. 그 결과 대도시가 중소도시 보다 사교육비 지출이 높았고, 일반 고등학교, 중학교, 전문 고등학교, 초등학교 순으로 사교육비 지출이 높았다. 그리고 가구소득이 높을수록 사교육비 지출도 높았다. This paper studies what affects the private education cost for the elementary, middle, and high school students. It is a big issue now because there can be a problem in the equal opportunity for education if the portion of private education cost is very high in the total education cost. If we spend more time and money on the private education than the school education, it can cause the polarization among the classes and regions. The excessive private education also can deteriorate the school system. we use various regression and classification methods to analyze the cost of private education and find the important variables in the models. we found that large cities spend more money on the private education than small cities. We also found that high school students spend more than middle school students and the elementary students and the household with more income spend more money on the private education.

      • KCI등재

        비선형 최소제곱법을 이용한 모수추정 방법론

        오선아,송종우,Oh, Suna,Song, Jongwoo 한국통계학회 2013 응용통계연구 Vol.26 No.3

        우리는 두꺼운 꼬리를 갖는 분포의 모수를 추정하는 방법론을 연구하였다. 일반적으로 MLE(최대우도 추정량)가 모수추정 방법론중에 가장 많이 사용되는데, 이는 MLE가 점근적 일치성과 정규성 그리고 효율성을 가지고 있기 때문이다. 하지만 MLE가 늘 가장 좋은 추정법은 아니다. 어떤 경우에는 MLE가 존재하지 않을 수도 있고 계산이 안정적이지 않을 수도 있다. 본 논문에서는 비선형 최소제곱추정법을 이용한 모수추정 방법론을 제시하고 그 성능을 MLE와 비교하였다. NLS 추정량은 empirical CDF와 이론적 CDF의 차이의 제곱을 최소화 하는 방법론이다. 본 논문에서는 두꺼운 꼬리를 가지는 다양한 분포하에서 우리가 제안하는 NLS방법론과 MLE와의 성능을 비교하였다. 그 결과, Burr 분포에서 표본의 수가 적을 때 우리의 방법론이 MLE보다 좋은 성능을 보여주었고, Frechet 분포에서도 좋은 결과를 얻을 수 있었다. We consider the problem of estimating the parameters of heavy tailed distributions. In general, maximum likelihood estimation(MLE) is the most preferred method of parameter estimation because it has good properties such as asymptotic consistency, normality and efficiency. However, MLE is not always the best solution because MLE is unstable or does not exist in some cases. This paper proposes another parameter estimation method, non-linear least squares(NLS) and compares its performance to MLE. The NLS estimator is achieved by minimizing sum of squared difference between empirical cumulative distribution function(CDF) and a theoretical distribution function. In this article, we compare the NLS method to MLE using simulated data from heavy tailed distributions. The NLS method is shown to perform better than MLE in Burr distribution when the sample size is small; in addition, it performs well in a Frechet distribution.

      • KCI등재

        PGA 투어의 골프 스코어 예측 및 분석

        임정은,임영인,송종우,Lim, Jungeun,Lim, Youngin,Song, Jongwoo 한국통계학회 2017 응용통계연구 Vol.30 No.1

        최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다. This study predicts the average scores of top 150 PGA golf players on 132 PGA Tour tournaments (2013-2015) using data mining techniques and statistical analysis. This study also aims to predict the Top 10 and Top 25 best players in 4 different playoffs. Linear and nonlinear regression methods were used to predict average scores. Stepwise regression, all best subset, LASSO, ridge regression and principal component regression were used for the linear regression method. Tree, bagging, gradient boosting, neural network, random forests and KNN were used for nonlinear regression method. We found that the average score increases as fairway firmness or green height or average maximum wind speed increases. We also found that the average score decreases as the number of one-putts or scrambling variable or longest driving distance increases. All 11 different models have low prediction error when predicting the average scores of PGA Tournaments in 2015 which is not included in the training set. However, the performances of Bagging and Random Forest models are the best among all models and these two models have the highest prediction accuracy when predicting the Top 10 and Top 25 best players in 4 different playoffs.

      • KCI등재

        불균형 자료에 대한 분류분석

        김동아,강수연,송종우,Kim, Dongah,Kang, Suyeon,Song, Jongwoo 한국통계학회 2015 응용통계연구 Vol.28 No.3

        일반적인 2집단 분류(2-class classification)의 경우, 두 집단의 비율이 크게 차이나지 않는 경우가 많다. 본 논문에서는 두 집단의 비율이 크게 차이나는 불균형 데이터(unbalanced data)의 분류 문제에 대해서 다루고자 한다. 불균형 데이터의 분류방법은 균형이 맞는 데이터(balanced data)의 경우보다 분류하기 어려운 경우가 많다. 이런 자료에서 보통의 분류모형을 적용하게 되면 많은 경우에 대부분의 관측치가 큰 집단으로 분류 되는 경우가 많은데 실질적인 어플리케이션에서는 이런 오분류가 손해가 더 큰 경우가 대부분이다. 우리는 sampling 기법을 이용하여 다양한 분류 방법론의 성능을 비교 분석 하였다. 또한 비대칭 손실(asymmetric loss)을 가정한 경우에 어떤 방법론이 가장 작은 loss를 생성하는 지를 비교하였다. 성능 비교를 위해서는 오분류율(misclassification rate), G-mean, ROC, 그리고 AUC(Area under the curve) 등을 이용하였다. We study a classification problem of significant differences in the proportion of two groups known as the unbalanced classification problem. It is usually more difficult to classify classes accurately in unbalanced data than balanced data. Most observations are likely to be classified to the bigger group if we apply classification methods to the unbalanced data because it can minimize the misclassification loss. However, this smaller group is misclassified as the larger group problem that can cause a bigger loss in most real applications. We compare several classification methods for the unbalanced data using sampling techniques (up and down sampling). We also check the total loss of different classification methods when the asymmetric loss is applied to simulated and real data. We use the misclassification rate, G-mean, ROC and AUC (area under the curve) for the performance comparison.

      • KCI등재

        Peacks over threshold를 이용한 Value at Risk: 모수추정 방법론의 비교

        강민정,김지연,송종우,송성주,Kang, Minjung,Kim, Jiyeon,Song, Jongwoo,Song, Seongjoo 한국통계학회 2013 응용통계연구 Vol.26 No.3

        국제적인 금융위기가 연달아 발생하면서, 금융리스크관리의 중요성이 어느 때보다 더 커지고 있다. 금융리스크관리의 주요 현안 가운데 하나는 리스크를 어떻게 측정할 것인가이며, 가장 널리 사용되고 있는 방법이 Value at Risk(VaR)이다. 금융자료가 최근 시장에서처럼 두꺼운 꼬리를 갖는 분포를 보일 때, 우리는 극단치 이론을 이용하여 VaR를 측정하는 방법을 고려할 수 있다. 이 논문에서는 꼬리가 매우 두꺼운 분포를 갖는 자료를 적합시킬 때 많이 사용되는 Peaks over Threshold(POT)를 이용하여 VaR를 측정하는 방법을 연구하였다. POT를 이용하기 위해서는 우선 일반화 파레토 분포(GPD)의 모수를 추정해야 하는데, 여기서 우리는 KOSPI 5분 자료를 이용하여 추정된 VaR의 성능을 살펴봄으로써 세 가지 다른 모수추정 방법을 비교하였다. 또한, Normal Inverse Gaussian(NIG) 분포에서 자료를 생성하여 두 가지 다른 모수추정 방법을 비교하기도 하였다. 이러한 비교를 통하여 KOSPI 수익률 자료의 첨도가 매우 큰 경우에는 최근 제안된 모수추정 방법들이 최대가능도 추정법에 비해 월등히 나은 성능을 보임을 알 수 있었고, 모의실험 자료에서도 같은 결과를 확인하였다. The importance of financial risk management has been highlighted after several recent incidences of global financial crisis. One of the issues in financial risk management is how to measure the risk; currently, the most widely used risk measure is the Value at Risk(VaR). We can consider to estimate VaR using extreme value theory if the financial data have heavy tails as the recent market trend. In this paper, we study estimations of VaR using Peaks over Threshold(POT), which is a common method of modeling fat-tailed data using extreme value theory. To use POT, we first estimate parameters of the Generalized Pareto Distribution(GPD). Here, we compare three different methods of estimating parameters of GPD by comparing the performance of the estimated VaR based on KOSPI 5 minute-data. In addition, we simulate data from normal inverse Gaussian distributions and examine two parameter estimation methods of GPD. We find that the recent methods of parameter estimation of GPD work better than the maximum likelihood estimation when the kurtosis of the return distribution of KOSPI is very high and the simulation experiment shows similar results.

      • KCI등재

        통계적 예측모형을 활용한 경륜 경기 순위 분석

        박가희,박리라,송종우,Park, Gahee,Park, Rira,Song, Jongwoo 한국통계학회 2017 응용통계연구 Vol.30 No.1

        최근 경륜은 2015년도 기준, 5백만 명 이상의 많은 사람들이 참여하고 2조를 넘어선 매출을 발생시키는 대중적인 레저스포츠로서 자리 잡고 있다. 본 연구의 목적은 다양한 통계적 분석기법을 사용하여 경륜경기의 순위를 예측하고, 순위에 유의한 영향을 미치는 변수들을 파악하는 데에 있다. 다양한 Classification 방법과 Regression 방법들을 적용하여 순위예측모형을 만들고 비교분석하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면, 등급이 강급될수록, 종합득점이 높을수록 순위가 높아지며 반대로 등급이 승급될수록, 번호 4번을 부여받을수록 그리고 최근성적의 순위가 낮을수록 순위가 낮아지는 것을 알 수 있었다. 또한, 선수의 실력과 관련된 연속형 변수들을 각 경기별로 평균값을 빼서 보정한 자료와 원자료를 사용하여 모형을 적합시킨 결과 모든 모형에서 보정된 자료를 사용하였을 때 더 낮은 오분류율을 보였다. 마지막으로 분석에 사용하지 않은 최근 한 달 경기결과를 예측해서 베팅했을 때 모든 경우에 예측률은 높았지만 큰 이익을 거두지 못했는데 그 이유는 낮은 배당률을 가진 경기의 결과만을 잘 예측했기 때문이다. Over 5 million people participate in cycle racing betting and its revenue is more than 2 trillion won. This study predicts the ranking of cycle racing using various statistical analyses and identifies important variables which have influence on ranking. We propose competitive ranking prediction models using various classification and regression methods. Our model can predict rankings with low misclassification rates most of the time. We found that the ranking increases as the grade of a racer decreases and as overall scores increase. Inversely, we can observe that the ranking decreases when the grade of a racer increases, race number four is given, and the ranking of the last race of a racer decreases. We also found that prediction accuracy can be improved when we use centered data per race instead of raw data. However, the real profit from the future data was not high when we applied our prediction model because our model can predict only low-return events well.

      • 무선 네트워크에서의 효율적 트래픽 분류 기법 연구

        이성진(Seongjin Lee),송종우(Jongwoo Song),안수한(Soohan Ahn),원유집(Youjip Won),장재성(Jae-sung Chang) 한국정보과학회 2008 한국정보과학회 학술발표논문집 Vol.35 No.1

        무선 인터넷의 구조적 특성상 한 셀에서 대역폭을 공유하고 그 안에서 각기 다른 QoS를 요구하근 서비스들이 한정된 자원을 사용한다. 트래픽의 변화와 패턴을 예측하기 위한 분석은 실제 서비스를 제공하기 전인 기획단계에서 매우 중요한 도구로 사용이 된다. 무선망의 트래픽을 예측하기 위해서는 유선 망의 분석과는 다른 방법이 필요하기 때문에 정확한 분류를 위해서 본 연구에서는 세션의 단위로 분석할 것을 제안한다. 또한 Classification and Regression Tree(CART)와 Support Vector Machine(SVM)의 두 개의 판별 분류 기법을 서로 비교하고 그 성능을 평가한다. 두 개의 판별 기법의 오차는 CART의 경우 0.0094 그리고 SVM의 경우 0.0089로 둘 다 우수한 성능을 보였지만 쉬운 결과 해석이 가능한 CART가 사용하기 용이함을 보인다.

      • KCI등재

        표정 분류 연구

        손나영,조현선,이소현,송종우,Son, Nayeong,Cho, Hyunsun,Lee, Sohyun,Song, Jongwoo 한국통계학회 2018 응용통계연구 Vol.31 No.5

        최근 등장하는 다양한 사물인터넷 기기 혹은 상황인식 기반의 인공지능에서는 사용자와 기기의 상호작용이 중요시 된다. 특히 인간을 대상으로 상황에 맞는 대응을 하기 위해서는 인간의 표정을 실시간으로 인식하여 빠르고 정확한 판단을 내리는 것이 필요하다. 따라서, 보다 빠르고 정확하게 표정을 인식하는 시스템을 구축하기 위해 얼굴 이미지 분석에 대한 많은 연구들이 선행되어 왔다. 본 연구에서는 웹사이트 Kaggle에서 제공한 48*48 8-bit grayscale 이미지 데이터셋을 사용하여 얼굴인식과 표정분류로 구분된 두 단계를 거치는 얼굴표정 자동 인식 시스템을 구축하였고, 이를 기존의 연구와 비교하여 자료 및 방법론의 특징을 고찰하였다. 분석 결과, Face landmark 정보에 주성분분석을 적용하여 단 30개의 주성분만으로도 빠르고 효율적인 예측모형을 얻을 수 있음이 밝혀졌다. LDA, Random forest, SVM, Bagging 중 SVM방법을 적용했을 때 가장 높은 정확도를 보이며, LDA방법을 적용하는 경우는 SVM 다음으로 높은 정확도를 보이며, 매우 빠르게 적합하고 예측하는 것이 가능하다. Effective interaction between user and device is considered an important ability of IoT devices. For some applications, it is necessary to recognize human facial expressions in real time and make accurate judgments in order to respond to situations correctly. Therefore, many researches on facial image analysis have been preceded in order to construct a more accurate and faster recognition system. In this study, we constructed an automatic recognition system for facial expressions through two steps - a facial recognition step and a classification step. We compared various models with different sets of data with pixel information, landmark coordinates, Euclidean distances among landmark points, and arctangent angles. We found a fast and efficient prediction model with only 30 principal components of face landmark information. We applied several prediction models, that included linear discriminant analysis (LDA), random forests, support vector machine (SVM), and bagging; consequently, an SVM model gives the best result. The LDA model gives the second best prediction accuracy but it can fit and predict data faster than SVM and other methods. Finally, we compared our method to Microsoft Azure Emotion API and Convolution Neural Network (CNN). Our method gives a very competitive result.

      • KCI등재

        국내 배달음식 이용건수 분석 및 예측

        권재영,김시내,박은지,송종우,Kwon, Jaeyoung,Kim, Sinae,Park, Eungee,Song, Jongwoo 한국통계학회 2015 응용통계연구 Vol.28 No.5

        우리나라는 세계적으로 배달음식 문화가 가장 많이 발달한 나라 중에 하나로 최근에는 일인가구의 증가와 배달앱 시장의 발달과 함께 그 성장 속도 또한 눈부시게 증가하고 있다. 따라서 배달음식 이용에 큰 영향을 미칠 것으로 예상되는 날씨와 날짜별 변수를 고려하여 시간대별 배달음식 이용건수를 예측함으로써 소비자와 생산자 모두에게 이익을 주는 예측모형을 찾고자 한다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 2014년도 배달음식 통화건수를 예측하는데 있다. 예측에 사용되는 회귀 모형은 선형회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 기계, 신경망, 로지스틱 회귀모형으로 총 6가지이다. 고려되는 배달음식 업종은 총 4가지(족발/보쌈정식, 중국음식, 치킨, 피자)로 크게 두 가지 방법을 이용하여 각 업종별 배달음식 이용건수를 예측하였다. 첫 번째 방법은 총 이용건수와 각 업종별 배달음식 이용비율을 곱하여 각 업종별 배달음식 이용건수를 예측하는 것이고, 두 번째 방법은 각 업종별 모형을 세워 각 업종별 배달음식 이용건수를 예측하는 방법이다. 최종적으로 선택된 모형은 방법 1에서는 신경망 모형과 선형회귀모형이며, 방법 2에서는 신경망 모형이었다. 방법 2보다는 방법 1로 구한 결과가 더 예측력이 좋은 것으로 나타났다. Food delivery services are well developed in the Republic of Korea, The increase of one person households and the success of app applications influence delivery services these days. We consider a prediction model for the food delivery service based on weather and dates to predict the number of food delivery services in 2014 using various data mining techniques. We use linear regression, random forest, gradient boosting, support vector machines, neural networks, and logistic regression to find the best prediction model. There are four categories of food delivery services and we consider two methods. For the first method, we estimate the total number of delivery services and the posterior probabilities of each delivery service. For the second method, we use different models for each category and combine them to estimate the total number of delivery services. The neural network and linear regression model perform best in the first method, this is followed by the neural network which is the best for the second method. The result shows that we can estimate the number of deliveries accurately based on dates and weather information.

      • KCI등재

        국내 드라마 시청률 예측 및 영향요인 분석

        강수연,전희정,김지혜,송종우,Kang, Suyeon,Jeon, Heejeong,Kim, Jihye,Song, Jongwoo 한국통계학회 2015 응용통계연구 Vol.28 No.5

        최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다. Audience rating competition in the domestic drama market has increased recently due to the introduction of commercial broadcasting and diversification of channels. There is now a need for thorough studies and analysis on audience rating. Especially, a drama rating is an important measure to estimate advertisement costs for producers and advertisers. In this paper, we study the drama rating prediction models using various data mining techniques such as linear regression, LASSO regression, random forest, and gradient boosting. The analysis results show that initial drama ratings are affected by structural elements such as broadcasting station and broadcasting time. Average drama ratings are also influenced by earlier public opinion such as the number of internet searches about the drama.

