http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
송주원 한국자료분석학회 2012 Journal of the Korean Data Analysis Society Vol.14 No.6
Discriminant analysis is a statistical technique that finds a discriminant function based on various characteristics and assigns each observation to an appropriate group. Model-based cluster analysis is a clustering technique based on finite mixture models and can be applied to discriminant analysis. Fraley and Raftery (2002) assumes that each group can be represented by a mixture distribution of several distributions and suggest a model-based mixture discriminant analysis (MclustDA) using model-based cluster analysis. When some observations are measured with errors, observations with and without measurement errors may follow different distributions with different parameter values, and each group may consist of a mixture of more than one distributions. In this study, we conduct a simulation to compare misclassification rates among the standard discriminant analysis, mixture discriminant analysis assuming more than one distributions in each group, and discriminant analysis based on model-based cluster analysis. Misclassification rates tends to increase when the percentage of observations measured with errors increases. Mixture discriminant analysis and discriminant analysis based on cluster analysis show lower misclassification rates than the standard discriminant analysis. 판별분석은 측정된 변수들의 특성에 근거하여 집단을 판별하는 방법을 찾아내고 새로운 개체들을 적절한 집단에 할당하는 것을 목적으로 하는 통계적 기법이다. 모형기반 군집분석은 유한개의 혼합모형에 근거하여 군집분석을 실시하는 기법으로서 판별분석으로도 적용이 가능하다. Fraley, Raftery(2002)는 각 군집에서의 자료가 한 개의 분포를 따른다고 가정하는 대신 각 군집이 여러 개의 분포의 혼합분포로 표현될 수 있다고 가정하고 모형기반 군집분석을 이용한 모형기반 혼합판별분석(MclustDA)을 제안하였다. 일부 관측 개체가 부정확하게 측정된 경우 오차를 포함한 자료는 정확하게 측정된 자료와 다른 모수를 가진 분포를 따를 수 있으므로 각 집단은 한 개의 분포 대신 한 개 이상의 분포로 구성된다고 볼 수 있다. 본 연구에서는 일부 개체가 오차를 포함한 자료에서 각 집단에 대하여 한 개 이상의 모형의 혼합분포를 가정하는 혼합판별분석이나 모형기반 군집분석을 이용한 판별분석을 실시한다면 기대 오분류율을 낮출 수 있는지 모의실험을 통해 비교하였다. 오차를 가지고 측정된 자료의 비율이 증가할수록 부정확한 자료로 인하여 오분류율이 증가할 수 있으며 혼합판별분석이나 모형기반 군집분석을 이용한 판별분석이 각 집단이 한 개의 분포로 이루어졌다고 가정하는 판별분석보다 오분류율이 작게 나타났다.
송주원 한국자료분석학회 2007 Journal of the Korean Data Analysis Society Vol.9 No.6
In social science researches, the effect of an intervention study is highly influenced by adherence to the intervention. Especially, when interventions are consisted of several series of sessions, it is important to retain participants through the whole sessions. When a group intervention is conducted, it is possible that some participants skip or drop out from the intervention because of the composition of the group. Importance of group member characteristics in intervention adherence was raised, but it has not been verified statistically. In this study, we consider a statistical model to evaluate the group member characteristics related to the group intervention adherence of young people living with HIV. Especially, we investigate the role of variables measuring similarity among group members for examining the group intervention attendance.
비정규성 변수에 대하여 잠재변수를 이용한 다중대체법의 적용
송주원 한국자료분석학회 2009 Journal of the Korean Data Analysis Society Vol.11 No.3
When imputation is conducted under the parametric models, it is common to assume a multivariate normal distribution. Most real data include categorical variables as well as continuous variables. However, imputation models often assume normal distributions for categorical variables, since it is not easy to define a joint density function of continuous and categorical variables. In this study, we assume that a binary variable is a categorized form of a continuous latent variable that follows a normal distribution. Then, we can conduct multiple imputation using this continuous latent variable under the normal distribution assumption and obtain the binary variable from the latent variable using a cutpoint. Since this approach can be easily extended to handle ordinal variables and nominal variables, we can conduct multiple imputation of both continuous and categorical variables under the multivariate normal distribution assumption. A simulation study indicates that the suggested imputation model performs better than complete-case analysis. 모수적 방법을 사용하여 대체(imputation)를 실시할 때 다변량 정규분포를 가정하는 경우가 흔하다. 실제 자료는 정규분포를 따르지 않는 범주형 변수들도 포함하는 경우가 많지만 범주형 변수와 연속형 변수의 결합밀도함수(joint density function)를 설정하기 어려워 범주형 변수들이 정규분포를 따르는 것처럼 가정한 채 대체를 실시하는 경우가 흔히 발생한다. 본 논문에서는 이항반응 변수는 연속형 정규분포를 가진 잠재변수(latent variable)의 이분된(dichotomized) 형태라고 가정한 후 잠재변수의 정규분포를 이용하여 다중대체를 시행하고 대체된 값을 결절점(cutpoint)을 이용하여 다시 이항반응을 가진 변수로 변환하는 방법을 제안하였다. 또한, 이 방법은 순서형 변수(ordinal variable) 및 명목형 변수(nominal variables)로 확장되어 연속형 변수와 함께 다변량 정규분포 하에서 대체를 실시하는 것이 가능하다. 모의실험을 통하여 제안된 대체 방법의 성능이 연구되었는데 결측값을 무시한 채 분석을 실시하는 것 보다 정확한 평균 및 범주의 비율 추정이 가능한 것으로 나타났다.
결측이 있는 영과잉 가산형 자료에 대한 포아송 모형의 모수 추정
송주원 한국자료분석학회 2014 Journal of the Korean Data Analysis Society Vol.16 No.4
Count data are analyzed under the Poisson distribution assumption. When Data contain more zeros than expected under the Poisson distribution, it is possible to analyze the data using the zero-inflated Poisson distribution. Lambert (1992) proposed the EM (expectation maximization) algorithm to estimate parameters of the zero-inflated Poisson model. When the count response variable includes missing values, complete-case analysis may produce biased parameter estimates if the missing data mechanism is not MCAR (missing completely at random). We propose the MCEM (Monte Carlo expectation maximization) algorithm to estimate parameters of the zero-inflated Poisson model when the count response variable is sometimes missing. Simulation is conducted to show that complete-case analysis can result in biased parameter estimates and the propose MCEM algorithm provide less biased parameter estimates under the MAR (missing at random) mechanism. Fishing data are analyzed to explain how to apply the proposed method to real data. 가산형(count) 자료에 대한 분석은 포아송 분포를 가정하여 실시하는데 이 때 포아송 분포에서 기대하는 것보다 0의 값을 가진 관찰치가 많은 경우 영과잉 포아송 분포(zero-inflated Poisson distribution)를 가정하여 분석을 실시할 수 있다. Lambert(1992)는 영과잉 포아송 모형에 대하여 EM 알고리즘을 통한 모수 추정 방법을 제안하였다. 가산형 반응 변수에 결측이 발생하는 경우 결측자료 메커니즘이 MCAR이 아니라면 결측이 발생한 자료를 제외한 채 완전한 자료 만에 근거한 분석을 실시하면 모수의 추정에 편향이 발생할 수 있다. 본 연구에서는 영과잉 가산형 자료에 결측이 발생하는 경우 적용할 수 있는 모수 추정 방법으로서 MCEM 알고리즘을 통한 모수 추정 방법을 제안한다. 모의실험을 통해 영과잉 포아송 모형에서 결측이 발생하는 경우 결측자료 메커니즘이 MAR이라면 결측된 자료를 제외한 채 완전하게 응답된 자료 만에 근거한 분석은 편향이 발생할 수 있음을 보이고 본 연구에서 제안한 MCEM 알고리즘을 통해 모수를 추정한다면 추정치에 편향이 덜 발생한다는 것을 보였다. 제안된 방법을 실제 자료에 적용하는 예제로서 낚은 물고기 숫자에 대한 영과잉 포아송 모형의 적합 결과를 설명하였다.
송주원 한국자료분석학회 2011 Journal of the Korean Data Analysis Society Vol.13 No.3
When hotdeck imputation for missing data is conducted, it is common to form imputation classes based on variables that are associated with a variable with missing values. While it is recommended to consider all the variables that are related to the variable with missing values, it sometimes causes problem in imputation, since the number of adjustment cells is rapidly increased when the number of variables to form imputation classes is increased, so that some missing cases cannot find their donor values. The number of variables to form imputation classes should be reduced to conduct hotdeck imputation in this case. We recommend considering the variables that are associated with both the variable with missing values and occurrence of non-response to form imputation classes. A simulation was conducted to show that the suggest method can reduce bias of the parameter estimate in hotdeck imputed data, compared to the one based on hotdeck imputation using imputation classes from the variable selection that only consider the association with the variable with missing values. 결측자료에 대한 핫덱대체를 실시할 때 연관된 변수들을 가지고 대체군을 형성한 후 대체군 내에서 대체를 실시하는 것이 일반적이다. 대체군을 형성할 때 결측이 발생한 변수와 연관성이 있는 변수들을 모두 포함하여 대체군을 형성한다면 대체군을 형성하는 변수의 숫자가 늘어남에 따라 대체군의 개수도 기하급수적으로 늘어나게 되어 특정 대체군 내에서는 대체값을 제공할 기증자를 찾지 못하여 대체를 실시하지 못하는 문제가 발생하게 된다. 이를 해결하기 위하여 대체군을 형성하기 위한 변수를 선택해야 하는 문제에 종종 직명하게 된다. 본 연구에서는 핫덱대체에서 대체군을 형성하는 변수를 선택할 때 결측이 발생한 변수와의 연관성 뿐 아니라 결측 발생 여부와의 연관성도 고려하여 변수를 선택하는 것이 바람직하다는 점을 논의한다. 모의실험을 통해 제안된 방법에 의한 변수 선택을 실시하여 핫덱대체를 실시하는 경우 결측이 발생한 변수와의 연관성만을 고려한 변수 선택에 근거한 핫덱대체보다 추정량의 편향을 줄일 수 있다는 점을 보였다.