RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        한국 프로스포츠 선수들의 연봉에 대한 다변량적 분석

        송종우,Song, Jong-Woo 한국통계학회 2008 응용통계연구 Vol.21 No.3

        프로스포츠 선수들의 연봉은 선수들의 개인 성적과 팀에 대한 기여도 등으로 결정된다는 가정하에 프로농구와 프로야구 선수들의 전년도 성적으로 다음해 연봉을 예측 분석하였다. 분석에 있어서 data visualization 기법을 통해 변수사이의 관계, 이상점 발견, 모형진단등을 하였다. 다중선형회귀 모형(Multiple Linear Regression)과 트리모형(Regression Tree)을 이용해서 자료를 분석하고 모델간 비교를 했으며, Cross-Validation을 이용해서 최적모델을 선택하였다. 특히, 자동으로 변수선택을 하는 stepwise regression방법을 그냥 사용하기보다는 먼저 설명변수들 사이의 관계나 설명변수와 반응변수 사이의 관계등을 조사하고 나서 이를 통해 선택된 변수들을 가지고 stepwise regression과 regression tree 방법론을 이용해서 적절한 변수 및 최종 모형을 선택하였다. 분석결과, 프로농구의 경우에는 경기당 득점, 어시스트, 자유투 성공수, 경력 등이 중요한 변수였고, 프로야구 투수의 경우에는 경력, 9이닝 당 삼진 수, 방어율, 피홈런 수 등이 중요한 변수였고, 프로야구 타자의 경우에는 경력, 안타 수, FA(자유계약)유무 여부 등이 중요한 변수였다. We analyzed Korean professional basketball and baseball players salary under the assumption that it depends on the personal records and contribution to the team in the previous year. We extensively used data visualization tools to check the relationship among the variables, to find outliers and to do model diagnostics. We used multiple linear regression and regression tree to fit the model and used cross-validation to find an optimal model. We check the relationship between variables carefully and chose a set of variables for the stepwise regression instead of using all variables. We found that points per game, number of assists, number of free throw successes, career are important variables for the basketball players. For the baseball pitchers, career, number of strike-outs per 9 innings, ERA, number of homeruns are important variables. For the baseball hitters, career, number of hits, FA are important variables.

      • KCI등재

        A new dissimilarity measure in time-dependent experiments

        송종우 한국통계학회 2008 Journal of the Korean Statistical Society Vol.37 No.2

        MostdistancemeasuresusedinunsupervisedlearningmethodsincludingtheEuclideandistanceandcorrelation-baseddistancesdisregard the time order of observations. In this paper, we consider a new dissimilarity measure that incorporates the timeorder of observations for time-dependent experiments. It measures the distance between a linear combination of two consecutiveobservations. To consider the length of time interval between observations, we use the same measure with the weight of time length,ti. We show that this measure has larger asymptotic discriminating power than the Euclidean distance, and it also gives a goodsmall sample performance.

      • KCI등재

        Bias corrections for Random Forest in regression using residual rotation

        송종우 한국통계학회 2015 Journal of the Korean Statistical Society Vol.44 No.2

        This paper studies bias correction methods for Random Forest in regression. Random Forest is a special bagging trees that can be used in regression and classification. It is a popular method because of its high prediction accuracy. However, we find that Random Forest can have significant bias in regression at times. We propose a method to reduce the bias of Random Forest in regression using residual rotation. The real data applications show that our method can reduce the bias of Random Forest significantly.

      • KCI등재

        A sequential clustering algorithm with applications to gene expression data

        송종우,Dan L. Nicolae 한국통계학회 2009 Journal of the Korean Statistical Society Vol.38 No.2

        Clustering algorithms are used in the analysis of gene expression data to identify groups of genes with similar expression patterns. These algorithms group genes with respect to a predefined dissimilarity measure without using any prior classification of the data. Most of the clustering algorithms require the number of clusters as input, and all the objects in the dataset are usually assigned to one of the clusters. We propose a clustering algorithm that finds clusters sequentially, and allows for sporadic objects, so there are objects that are not assigned to any cluster. The proposed sequential clustering algorithm has two steps. First it finds candidates for centers of clusters. Multiple candidates are used to make the search for clusters more efficient. Secondly, it conducts a local search around the candidate centers to find the set of objects that defines a cluster. The candidate clusters are compared using a predefined score, the best cluster is removed from data, and the procedure is repeated. We investigate the performance of this algorithm using simulated data and we apply this method to analyze gene expression profiles in a study on the plasticity of the dendritic cells.

      • KCI등재
      • KCI등재

        POT방법론을 이용한 자동차보험 손해율 추정

        김수영,송종우,Kim, S.Y.,Song, J. 한국통계학회 2012 응용통계연구 Vol.25 No.1

        자동차보험의 손해율이란 지급보험금의 수입보험료에 대한 비율을 의미한다. 손해율이 매우 큰 값을 갖는 대형손실이 일어나는 경우에는 보험회사의 재무적인 부분에 큰 악영향을 미치게 된다. 따라서 보험회사가 이에 대비할 수 있도록 하기 위하여 손해율의 극단 분위수(extreme quantile)를 추정하는 것은 매우 중요한 일이다. 다른 종류의 보험 관련 데이터와 같이 손해율의 분포는 오른쪽으로 긴 꼬리를 갖는 두꺼운 꼬리분포(heavy-tailed distribution)를 갖는다. 이런 자료에서 극단 분위수룰 추정하기 위하여 가장 많이 사용되는 방법론은 POT(Peaks over threshold)와 Hill 추정(Hill estimation)이다. 본 논문에서는 일반화파레토분포(generalized Pareto distribution; GPD)의 다양한 모수추정방법론의 성능을 모의실험과 실제 손해율 데이터를 사용하여 비교, 분석하였다. 또한 Hill 추정치를 사용하여 극단 분위수를 추정하였다. 그 결과 대부분의 경우에 POT 방법론이 Hill 추정치를 이용한 방법보다 정확한 분위수를 추정하였고, 모수추정방법론 중에서는 MLE, Zhang, NLS-2 방법론이 가장 좋은 결과를 보여주었다. In car insurance, the loss ratio is the ratio of total losses paid out in claims divided by the total earned premiums. In order to minimize the loss to the insurance company, estimating extreme quantiles of loss ratio distribution is necessary because the loss ratio has essential prot and loss information. Like other types of insurance related datasets, the distribution of the loss ratio has heavy-tailed distribution. The Peaks over Threshold(POT) and the Hill estimator are commonly used to estimate extreme quantiles for heavy-tailed distribution. This article compares and analyzes the performances of various kinds of parameter estimating methods by using a simulation and the real loss ratio of car insurance data. In addition, we estimate extreme quantiles using the Hill estimator. As a result, the simulation and the loss ratio data applications demonstrate that the POT method estimates quantiles more accurately than the Hill estimation method in most cases. Moreover, MLE, Zhang, NLS-2 methods show the best performances among the methods of the GPD parameters estimation.

      • KCI등재

        초,중,고 사교육비 영향요인 분석

        이혜정,송종우,Lee, Hyejeong,Song, Jongwoo 한국통계학회 2014 응용통계연구 Vol.27 No.7

        본 논문에서는 현재 우리 사회에서 큰 이슈가 되고 있는 사교육비에 영향을 미치는 요인을 분석하였다. 사교육비가 논란이 되는 이유 가운데 하나는 각 가정에서 소비되는 전체 교육비 가운데 사교육비가 차지하는 비중이 높으면 경제적으로 교육에 대한 기회균등이 이루어지지 않는 문제를 유발할 수 있기 때문이다. 또한, 과도한 사교육으로 인해 기본적인 학교 교육보다 더 많은 시간과 비용을 할애한다면, 계층 간, 지역 간의 양극화와 더불어 학교의 기능이 저하되는 요인으로 작용할 수 있기 때문이다. 우리는 다양한 회귀분석 방법론과 분류분석 방법론을 이용하여 사교육비에 영향을 미치는 중요변수가 무엇인지를 파악하고 또 각각의 변수들이 어떻게 사교육비에 영향을 미치는 지를 분석하였다. 그 결과 대도시가 중소도시 보다 사교육비 지출이 높았고, 일반 고등학교, 중학교, 전문 고등학교, 초등학교 순으로 사교육비 지출이 높았다. 그리고 가구소득이 높을수록 사교육비 지출도 높았다. This paper studies what affects the private education cost for the elementary, middle, and high school students. It is a big issue now because there can be a problem in the equal opportunity for education if the portion of private education cost is very high in the total education cost. If we spend more time and money on the private education than the school education, it can cause the polarization among the classes and regions. The excessive private education also can deteriorate the school system. we use various regression and classification methods to analyze the cost of private education and find the important variables in the models. we found that large cities spend more money on the private education than small cities. We also found that high school students spend more than middle school students and the elementary students and the household with more income spend more money on the private education.

      • KCI등재

        네이버 영화 리뷰 데이터를 이용한 의미 분석(semantic analysis)

        김소진,송종우 한국통계학회 2022 응용통계연구 Vol.35 No.1

        With the explosive growth of social media, its abundant text-based data generated by web users has become an important source for data analysis. For example, we often witness online movie reviews from the `Naver Movie' affecting the general public to decide whether they should watch the movie or not. This study has conducted analysis on the Naver Movie’s text-based review data to predict the actual ratings. After examining the distribution of movie ratings, we performed semantics analysis using Korean Natural Language Processing. This research sought to find the best review rating prediction model by comparing machine learning and deep learning models. We also compared various regression and classification models in 2-class and multi-class cases. Lastly we explained the causes of review misclassification related to movie review data characteristics. SNS의 등장으로 인터넷 이용자들이 온라인에 남기는 텍스트의 양이 방대해지고 그 중요성이 강조되고있다. 특히 네이버의 영화 탭에서 볼 수 있는 영화 평점이나 리뷰는 실제로 관객들이 영화를 보기 전 해당 영화를 볼 것인지 결정하는 데 주요 요인이 되기도 한다. 본 연구는 실제 네이버 영화 리뷰 데이터를 가지고 평점을 예측하는 분석을 수행했다. 영화 리뷰 데이터를 분석하기 위해 평점의 분포를 통해 데이터 특성을 살펴보았고, 텍스트의 의미를 분석하기 위해 형태소 분석을 통한 한국어 자연어처리를 수행했다. 또한 평점 예측에 활용할 모델 선택을 위해 2-Class와 multi-Class 문제들에 대해 머신러닝과 딥러닝, 회귀와 분류 분석을 비교했으며, 오분류의 원인을 영화 리뷰 데이터 특성과 연관시켜 서술했다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
