RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        차원축소를 통한 결측자료의 군집분석

        송주원(Juwon Song) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.2

        군집분석은 유사한 특성들을 지닌 관측값들을 같은 군집으로, 다른 특성들을 지닌 관측값들은 서로 다른 군집으로 분류하는 분석 기법이다. 많은 변수를 포함한 고차원 자료에서는 일반적인 군집분석 대신 차원축소를 통하여 군집분석을 실시하는 방법들이 제안되어 왔다. 주성분 분석을 통해 차원을 축소한 후 축소된 차원에서 군집분석을 실시하는 직렬분석 방법보다 차원축소와 군집분석을 결합하여 동시에 실시하는 방법들이 더 우수한 성능을 보인다는 것이 알려져 있다. 한편, 대부분의 자료는 결측값을 포함하고 있는데 결측값이 포함된 자료에 대하여 군집분석을 실시하는 경우 불완전하게 관측된 자료들은 어느 군집으로도 분류되지 않는 문제가 발생한다. 따라서 군집분석을 실시하기 전에 먼저 결측값 대체를 실시하는 것이 일반적이다. 본 연구에서는 고차원 결측자료에 대하여 차원축소를 통한 k-평균 군집분석을 실시할 때 결측값 대체를 결합하여 실시하는 방법을 제안한다. 이 방법은 군집 정보를 이용한 결측값 대체를 통해 정확한 차원축소를 통한 군집분석이 가능하게 하는 장점을 지닌다. 제안된 방법은 모의실험을 통해 성능을 평가하였고 결측값을 대체한 후 대체된 자료에 대하여 차원축소를 통한 군집분석을 실시하는 직렬식 분석방법과 비교하였다. 제안된 방법은 적절한 차원축소를 통한 k-평균 군집분석을 실시한다면 직렬식 분석보다 오분류율이 낮게 나타났다. Cluster analysis classify similar observations into the same cluster and different observations into different clusters. When data include many variables, reduced dimension clustering methods have been suggested instead of the standard clustering methods. The joint analysis of dimension reduction and clustering is known to perform better than tandem analysis that sequentially conducts dimension reduction and clustering. On the other hand, most data include missing values. When cluster analysis is conducted with incomplete data, incomplete observations can not be classified into any group. To avoid this problem, it is common to impute missing values before conducting cluster analysis. In this study, we suggest a method for combining dimension reduction k-means clustering and missing data imputation. The suggested method has an advantage to accurate classify observations through imputation using cluster information. A simulation is conducted to evaluate performance of the suggested method and compare the result with the one based on tandem analysis. The suggested method using an appropriate dimension reduction k-means clustering showed lower misclassification rates than tandem analysis.

      • KCI등재

        확률적 reduced $K$-means 군집분석

        이승훈,송주원 한국통계학회 2021 응용통계연구 Vol.34 No.6

        라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 $K$-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 $K$-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced $K$-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced $K$-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다. Cluster analysis is one of unsupervised learning techniques used for discovering clusters when there is no prior knowledge of group membership. $K$-means, one of the commonly used cluster analysis techniques, may fail when the number of variables becomes large. In such high-dimensional cases, it is common to perform tandem analysis, $K$-means cluster analysis after reducing the number of variables using dimension reduction methods. However, there is no guarantee that the reduced dimension reveals the cluster structure properly. Principal component analysis may mask the structure of clusters, especially when there are large variances for variables that are not related to cluster structure. To overcome this, techniques that perform dimension reduction and cluster analysis simultaneously have been suggested. This study proposes probabilistic reduced $K$-means, the transition of reduced $K$-means (De Soete and Caroll, 1994) into a probabilistic framework. Simulation shows that the proposed method performs better than tandem clustering or clustering without any dimension reduction. When the number of the variables is larger than the number of samples in each cluster, probabilistic reduced $K$-means show better formation of clusters than non-probabilistic reduced $K$-means. In the application to a real data set, it revealed similar or better cluster structure compared to other methods.

      • KCI우수등재

        비즈니스 데이터 분석을 위한 베이지안 계층 군집분석

        류성균(Sung Kyun Rhyeu),황범석(Beom Seuk Hwang) 한국데이터정보과학회 2020 한국데이터정보과학회지 Vol.31 No.1

        군집분석은 데이터 마이닝 기법의 일종으로 객체 간의 유사도 혹은 비유사도를 이용하여 비슷한 객체를 군집화하는 방법이다. 흔히 사용되는 군집분석 방법으로는 계층적 군집분석, k-평균 군집분석 등이 있으나 이러한 방법들은 이상치에 민감하고, 군집의 수와 같은 모수들을 사전에 정해야 하는 단점이 있다. 한편, 유전체 분석에서 활용되고 있는 베이지안 계층 군집분석은 가설 검정을 기반으로 군집을 정하기 때문에 앞서 말한 군집분석 방법의 단점을 보완할 수 있다. 본 연구에서는 모의실험을 통해 베이지안 계층 군집분석 방법의 장점과 기존 방법들과의 차이점을 확인하고, 실제 비즈니스 데이터에 이를 적용하여 최적의 군집분석 결과를 얻을 수 있는지 살펴본다. Clustering is a kind of data mining methods that groups similar objects by using similarity or nonsimilarity between objects. The hierarchical clustering and k-means clustering are widely exploited, but these methods have some drawbacks in that sensitive to the outliers and require predetermined options such as the number of clusters. Meanwhile, the Bayesian Hierarchical Clustering (BHC) employed in microarray data analysis determines clusters based on the hypothesis testing, and therefore, it does not concern about the problems as mentioned above. In this study, we examine the advantage of BHC and the differences between well-known clustering methods and how this method could be applied to business data to obtain superior clustering result.

      • KCI등재

        겨울철 일 단위 노면온도 패턴에 대한 군집분석

        황영은,전상아,이민아,윤상후 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.2

        The temperature of the road surface is important for road safety during the winter season. Slip vehicle accidents could occur when the road surface temperature drops below zero. It is known that the road surface temperature is on average 3~5℃ lower than the atmospheric temperature, but the actual observation data differs depending on the weather conditions. Therefore, the daily pattern of the difference between the atmospheric temperature and the road surface temperature is to be clustered. The research data is road meteorological information collected from stationary observation equipment in Jeollabuk-do from November 2017 to December 2020. The daily road surface temperature patterns were clustered after quality control through the climate range test, time variability test, and Kalman filter state model. Gaussian mixed clustering analysis, density-based clustering, and functional cluster analysis were considered. Gaussian mixed clustering analysis was explained well, as a result of evaluating the relationship between the clusters and daily weather information using a decision tree with 5-fold cross-validation. 도로 표면의 온도는 겨울철 도로안전을 위해 중요한 정보이다. 노면온도가 영하로 내려가면 결빙, 적설, 해빙 등에 따른 미끄럼 사고가 발생하기 때문이다. 일반적으로 노면온도는 대기온도에 비하여 평균 3~5℃ 낮다고 알려졌으나 실 관측자료는 기상 상황에 따른 차이가 있다. 따라서 노면온도와 대기온도 간 차이의 패턴을 일 단위로 군집화하고자 한다. 연구자료는 2017년 11월 5일부터 2020년 12월 31일까지 전라북도 지역의 고정식 관측장비로부터 수집된 도로 기상정보이다. 수집한 자료는 관측 시간 단위가 동일하지 않아 기후 범위 검사, 시간 변동성 검사, 칼만 필터 상태모형을 통해 품질관리 후 일 단위 노면온도 패턴을 군집화하였다. 일 단위 노면온도와 대기온도 간 차이는 3개의 주성분으로 축약하여 노면온도와 대기온도 간 패턴을 파악하기 위한 군집분석을 시행하였다. 군집분석 방법으로 가우시안 혼합 군집분석, 밀도기반 군집분석, 그리고 함수적 군집분석이 고려되었다. 군집분석 결과와 일 단위 기상정보 간 관계를 의사결정나무와 5겹 교차검증으로 평가한 결과 가우시안 혼합 군집분석으로부터 생성된 군집이 일 단위 기상정보로 가장 잘 설명되었다.

      • KCI우수등재

        시간단위 전력사용량 시계열 패턴의 군집 및 분류분석

        박다인,윤상후,Park, Dain,Yoon, Sanghoo 한국데이터정보과학회 2017 한국데이터정보과학회지 Vol.28 No.2

        전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다. The purpose of this study is to identify the pattern of daily electricity demand through clustering and classification. The hourly data was collected by KPS (Korea Power Exchange) between 2008 and 2012. The time trend was eliminated for conducting the pattern of daily electricity demand because electricity demand data is times series data. We have considered k-means clustering, Gaussian mixture model clustering, and functional clustering in order to find the optimal clustering method. The classification analysis was conducted to understand the relationship between external factors, day of the week, holiday, and weather. Data was divided into training data and test data. Training data consisted of external factors and clustered number between 2008 and 2011. Test data was daily data of external factors in 2012. Decision tree, random forest, Support vector machine, and Naive Bayes were used. As a result, Gaussian model based clustering and random forest showed the best prediction performance when the number of cluster was 8.

      • KCI등재

        결측치를 포함한 데이터의 k-평균 군집분석 방법 비교

        양대경(Daegyeong Yang),명재성(Jasung Myung),이승훈(Seunghoon Lee),송주원(Juwon Song) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.6

        군집분석이란 개체 간 유사성을 포착하여 유사한 특징을 공유하는 개체들을 동일 군집으로 모으고 이질적인 개체들을 다른 군집을 정의해내는 비지도 학습 방법이다. 다양한 군집분석 방법이 제안되어 있으며 최적화 군집 방법 중 각 군집의 중심과 개체 간의 유클리디안 거리를 최소화하는 k-평균 군집분석은 가장 기본적인 방법으로 널리 사용되고 있다. 하지만 데이터에 결측이 존재하는 경우, 각 군집의 중심에서 결측이 발생한 개체까지의 거리를 계산하는 것이 불가능하므로 결측자료는 군집으로 분류되지 않는 문제가 발생하며 결측 자료를 제외한 군집분석의 결과는 예측하기 어렵다. 이러한 상황에 대해 대처하기 위해 결측치가 발생하더라도 관측된 정보만을 근거하여 군집분석을 수행하거나 결측치를 대체한 후 군집분석을 수행하는 다양한 방법들이 제안되어 있다. 본 연구에서는 결측 자료를 포함하고 있는 데이터에 대해 k-평균 군집분석을 수행할 방법들을 탐구하였으며, 모의실험을 통해 해당 방법들의 성능을 평가하였다. 모의실험을 통한 평가 결과, 결측치를 대체한 다음 k-평균 군집분석을 수행하는 것이 가장 좋은 성능을 보였으며, 결측치 대체 방법 중에서는 k-최근접 이웃(k-nearest neighbors) 대체가 가장 좋은 성능을 보였다. Cluster analysis is an unsupervised learning method to find heterogeneous clusters that capture similarities among items and separate different items into different clusters. Various cluster analysis techniques have been proposed, and the k-means clustering method, which minimizes the sum of Euclidean distances between cluster centroids and individual entities, is widely recognized as a standard cluster analysis method. When data include missing values, it is challenging to conduct cluster analysis, because it is impossible to calculate distances between centroids of clusters and incomplete items, resulting in excluding classification of these items. Techniques have been suggested to handle missing values in k-means clustering, including conducting cluster analysis after imputation of missing values or cluster analysis based on available information. In this study, we explore methods to perform k-means cluster analysis on data with missing values and evaluate performance of these methods using a simulation. The results of simulation studies indicate that conducting k-means cluster analysis after imputation yields the better performance than the one based on available information. Among the various imputation methods, k-nearest neighbors imputation performed the best.

      • KCI등재

        양적·질적 혼합형 데이터에 대한 군집분석 알고리즘 비교 및 사례분석

        배영준,강현철,연규필,권은미,한상태 한국자료분석학회 2015 Journal of the Korean Data Analysis Society Vol.17 No.6

        군집분석은(cluster analysis)은 군집의 개수나 구조에 관한 특별한 가정 없이 개체들 사이의 유사성 또는 거리(비유사성)에 근거하여 자연스러운 군집을 찾고 다음 단계의 분석을 꾀하는 탐색적인 통계분석 기법이다. 전통적인 거리-기반 군집분석에서는 양적(연속형) 데이터가 주로 사용된다. 그러나 질적(범주형) 데이터가 포함되어 있는 데이터에 대해서 군집분석을 수행하고자 하는 경우도 자주 발생한다. 특히 데이터마이닝과 같은 분야에서는 인구사회적 특성이나 거래 속성 등의 질적 변수를 포함하여 분석해야 하는 경우가 매우 많다. 본 연구에서는 양적․질적 변수들이 혼합되어 있는 데이터에 대하여 가장 널리 사용되는 군집분석 알고리즘들을 비교하였다. 여기에서 다루는 알고리즘은 거리에 기초한 SAS/Enterprise Miner의 k-평균 군집화, 확률분포에 기초한 SPSS의 2-단계(two-step) 군집화, 혼합모형에 기초한 Latent GOLD의 LCA(latent class analysis) 방법이다. 본 연구의 사례분석 결과에서도 볼 수 있듯이 동일한 데이터에 대하여도 사뭇 다른 결과를 산출한다. 따라서 실제 문제에서 연구자들은 한 가지 방법만으로 결과를 도출하지 말고, 다양한 방법들을 사용하여 결과를 얻고 그들을 서로 비교하여 가장 합리적인 결과를 얻을 수 있도록 노력할 필요가 있다. Cluster analysis is an exploratory statistical method to search significant structures inherent in a given data set based on similarity or distance among observations. Conventional clustering algorithms are applied to mostly quantitative variables for which a distance can be defined naturally. However, in many application fields we are often confronted with a mixed data set which contains qualitative variables as well as continuous variables. In this study, we compare some clustering methods which are commonly used for such a mixed data by conducting simulations with real data sets. The clustering methods we consider are k-means clustering, two-step clustering and latent class analysis method which can be easily implemented using statistical softwares such as SAS/E-miner, SPSS and Latent GOLD. The comparative simulation results can be helpful to practical researchers considering a cluster analysis with a mixed numeric and categorical data set.

      • KCI등재

        군집분석을 이용한 수준설정 방법과 타당성 연구

        박연복(Yeonbok Park),이규민(Guemin Lee),강상진(Sang-Jin Kang) 한국교육평가학회 2011 교육평가연구 Vol.24 No.3

        이 연구의 목적은 군집분석을 이용한 수준설정 방법의 절차를 제시하고 타당성에 대해서 검토하는 것이다. 군집분석을 이용한 수준설정 방법은 학생들의 데이터를 근거로 학생들을 분류하므로 학생들이 무엇을 할 수 있는지에 초점을 둔 수준을 제안할 수 있다. 군집분석을 이용한 수준설정 방법은 크게 두 단계를 거쳐 분할점수가 산출되었다. 1단계는 군집 수 결정 단계이다. 군집 수 결정을 위해 계층적 군집화를 시행한 후 적절한 군집 수의 범위를 정하고, K-평균군집화를 시행한 후 최종 군집 수를 결정한다. 2단계는 군집분석 시행 후 수준설정을 위한 분할점수 산출 단계이다. 각 검사의 하위영역에 대한 Z-점수 평균을 군집 별로 프로파일링 하여 수행 수준을 정한 후, 경계선집단방법이나 대비 집단방법을 이용하여 최종 분할점수를 산출한다. 군집분석을 이용한 수준설정 방법의 타당성 확보를 위하여 분류일치도 결과를 내적 타당도 자료로 분석하였고, 북마크방법을 통한 산출된 분할점수와의 비교를 통해 외적타당도를 검토하였다. 분석 결과, 군집분석을 이용한 수준설정 방법이 내적ㆍ외적 타당성이 있는 방법임을 알 수 있었고, 이 수준설정 방법이 기존의 다른 수준설정 방법과 함께 사용될 수 있는 가능성을 확인할 수 있었다. This study aims to suggest a method to set standards for students by using cluster analysis and to review the validity of the method. In most of the existing standard setting methods, cut scores are calculated by the judgment panel rather than objective data on students' performance. On the contrary, the standard setting by cluster analysis is based on student data, thus making it possible to focus on what students can do. The results of this research can be summarized as follows. First, the method of determining the number of clusters proposed in this study using Rand index seem reasonable because this is utilized more information derived from student data. Second, the differences between cut scores from the bookmark and cluster analysis methods were relatively small across five subject areas. Also, the classification consistency showed relatively high values in five subjects, assuming Beta or 4-Beta distribution for true score. These results support internal and external validity for standard setting method using cluster analysis. Third, the standard setting method using cluster analysis can be considered as an alternative when standard setting panelists cannot be easily obtained. In other respect, this method can be used as a criteria for another standard setting method.

      • KCI등재

        군집분석을 통한 K리그 축구팀 플레이스타일 분류

        김종원(Jongwon Kim),최형준(Hyongjun Choi) 한국체육측정평가학회 2021 한국체육측정평가학회지 Vol.23 No.1

        본 연구는 2020 K리그 경기에서 발생한 패스 관련 분석인자들을 이용하여 군집분석을 통해 K리그 팀들의 플레이스타일을 알아보고자 하였다. 2020 K리그 모든 팀들의 전 경기(스플릿 후 경기 제외)를 대상으로 하였으며, 연구의 대상이 된 경기 수는 총 132경기였으며, 양 팀의 자료를 각각 고려하였다(n=264). K리그 프로축구연맹 ‘데이터포탈’에서 제공받은 18개의 패스 관련 분석인자들을 Microsoft Office Excel 2007을 이용하여 정리하였고, 그 후 R 3.6.2를 이용하여 자료 처리하였다. 통계적 검증을 위하여 기술통계 분석(descriptive statistics analysis)을 실시한 후, 데이터 마이닝 기법 중 하나인 k-평균 군집분석(k-means cluster analysis)과 교차분석(cross-tabulation analysis)을 실시하였다. 본 연구의 군집분석을 통하여 얻어진 군집의 수는 3개였다. 절반 이상의 팀들이 군집 1에 속하였고, 군집2(전북, 울산, 강원)와 군집3(대구, 광주, 인천)에는 각각 3팀이 속하였다. 최상위 팀인 1위 팀 전북과 2위 팀 울산이 속한 군집2는 다른 군집들과 비교해 공격 1/3지역 패스 비율, 숏 패스 비율, 전진 패스 비율을 제외한 나머지 15개의 분석인자들에서 가장 높은 평균값을 나타냈고, 군집3의 경우 가장 낮은 평균값을 보였다. 분석인자들 간의 유사성을 이용하여 군집을 나누는 방법으로 직접적인 팀의 플레이스타일을 표현하는데 한계가 있지만, 본 연구에서 사용된 분석인자들을 통해 비슷한 유형의 팀들을 군집하는데 의미가 있다. The purpose of this study was to identify the playing styles of football clubs in K-League through cluster analysis using performance indicators related to pass. All matches excepted to split matches were used for analysis and all data were provided from Korea Football League(n=264). All data were preprocessed on Microsoft Office Excel 2007 and statistical analysis was conducted on R 3.6.2. Descriptive statistical analysis was firstly used to calculate means and standard deviations for each performance indicators and then k-means cluster analysis, one of the data mining method, was conducted to identify clusters. Finally, cross-tabulation analysis was used to identify K-League teams into each cluster. Three clusters were identified and Jeonbuk, Ulsan and Gangwon was included in cluster 2 whilst Daegu, Gwangju and Incheon was included in cluster 3. The other teams were included in cluster 1. Cluster 2 had greater performance indicators related to pass rather than other clusters. Although cluster analysis, grouping performance indicators in such a way that performance indicators in the same cluster are more similar each other compared to other clusters, could not determine accurate playing styles in football, it is literally meaningful to group the similar type of teams. There needs to be a great interpretation of the characteristics of the formed clusters.

      • KCI등재

        결측자료의 k-평균 군집분석

        송주원 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.2

        Cluster analysis is an analysis technique to classify observations with similar characteristics into the same cluster. The k-means cluster analysis conducts grouping of observations based on an optimization method minimizing the sum of Euclidean distances between observations and their cluster centers. In real data, missing values often occur in some variables, and when cluster analysis is conducted for missing data, it is common to exclude observations with missing values. However, in this case, missing values cannot be classified into any group, and it may cause biases in estimating cluster centers. Therefore, to include observations with missing values in cluster analysis, it is often to impute missing values and conduct cluster analysis using imputed data. A disadvantage of this imputation approach is to conduct imputation without using cluster information. In this study, we propose methods to impute missing values using cluster information. Simulation is conducted to compare performance of the suggested imputation method with the one based on imputation without using cluster information. The proposed imputation method provides better results than the one ignoring cluster information. 군집분석은 유사한 특성을 지닌 관측치들을 동일한 그룹으로 분류하는 분석 기법이다. k-평균 군집분석은 관측치들과 군집 평균의 유클리디언 거리의 합을 최소화하는 그룹을 찾는 최적화 기법을 통해 자료를 군집으로 분류한다. 실제 자료의 경우 일부 변수에서 결측이 발생하는 경우가 흔하며 결측을 포함한 자료에 대하여 군집분석을 실시하는 경우 결측이 발생한 관측치를 제거한 후 분석을 실시하는 것이 일반적이다. 하지만 이 경우 결측이 발생한 자료는 어느 군집에도 할당할 수 없고 각 그룹의 평균의 추정에 편향이 발생할 가능성이 높다. 따라서 결측치를 포함한 자료를 군집분석에 포함하기 위하여 흔히 사용되는 방법은 결측값에 대해 대체를 실시한 후 대체된 자료에 대하여 군집분석을 실시하는데 이 경우 군집 정보를 포함하지 않고 대체를 실시하는 단점을 지닌다. 따라서 본 연구에서는 결측치에 대한 대체를 실시할 때 군집 정보를 이용하여 대체하는 방법을 제안한다. 모의실험을 통해 본 연구에서 제안한 방법을 군집 정보를 포함하지 않고 대체를 실시한 후 군집분석을 실시하는 경우와 비교하였는데 본 연구에서 제안한 대체 방법이 더 나은 결과를 보였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼