RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        다중응답 문항에서 발생하는 무응답에 대한 대체 방법 비교

        송주원 한국자료분석학회 2014 Journal of the Korean Data Analysis Society Vol.16 No.2

        무응답(nonresponse)을 포함한 설문 자료에 대한 대체 기법은 일반적으로 응답자가 한 개의 문항에 대해 한 개의 응답만 제공한다고 가정한다. 한편 선다형 문항에 대해 다중응답을 허락하는 경우 응답자는 한 개의 응답 대신 해당되는 항목들을 모두 선택할 수 있는데 이와 같은 다중응답 문항에서 발생하는 무응답에 대하여 대체를 실시하는 방법에 관한 연구는 제한적이다. 본 연구에서는 다중응답이 가능한 문항에서 발생한 무응답에 대하여 대체를 실시하는 세 가지 방법을 고려하였다. 첫 번째는 선다형 문항의 각 항목을 이항 변수로 변환한 후 각 이항 변수에 대해 독립적으로 대체를 실시하는 방법이고 두 번째는 가능한 응답 조합들을 고려하여 각 무응답을 적절한 응답 조합으로 대체하는 방법이며 세 번째는 공통 기증자 핫덱대체 방법이다. 모의실험을 통해 제안된 세 가지 방법들의 성능을 평가하였고 고령화연구패널 제 1차조사의 다중응답 문항에 대한 예제를 통해 실제 자료에 대한 적용 방법을 설명하였다. 제안된 세 가지 대체 방법 모두 비율을 적절히 추정하였고 응답 조합을 고려한 대체 방법이 조금 더 나은 결과를 보였다. Imputation of incomplete survey data due to nonresponse normally assumes that participants provide only one answer for a question. On the other hand, when it is possible to choose more than one answer for a multiple question, participants can choose any number of items. However, imputation methods to handle multiple response data are limited. In this study, we consider three multiple imputation methods to handle multiple response questions. First, it is possible to transform multiple responses of a multiple-choice question into binary variables and conduct imputation to each of these binary variables independently. Secondly, it is possible to consider all possible combinations of multiple responses and impute nonresponses as one of these combinations. The third method is the common-donor hotdeck imputation. Simulation is conducted to compare performance of these imputation methods and a multiple response question of KLoSA study is used to provide an example of the application of these methods to real data. All of the three proposed imputation methods correctly estimated the proportion and the imputation method that considers all possible combinations of items provides better results.

      • KCI등재

        핫덱대체의 대체군 형성 변수 선택

        송주원 한국자료분석학회 2011 Journal of the Korean Data Analysis Society Vol.13 No.3

        When hotdeck imputation for missing data is conducted, it is common to form imputation classes based on variables that are associated with a variable with missing values. While it is recommended to consider all the variables that are related to the variable with missing values, it sometimes causes problem in imputation, since the number of adjustment cells is rapidly increased when the number of variables to form imputation classes is increased, so that some missing cases cannot find their donor values. The number of variables to form imputation classes should be reduced to conduct hotdeck imputation in this case. We recommend considering the variables that are associated with both the variable with missing values and occurrence of non-response to form imputation classes. A simulation was conducted to show that the suggest method can reduce bias of the parameter estimate in hotdeck imputed data, compared to the one based on hotdeck imputation using imputation classes from the variable selection that only consider the association with the variable with missing values. 결측자료에 대한 핫덱대체를 실시할 때 연관된 변수들을 가지고 대체군을 형성한 후 대체군 내에서 대체를 실시하는 것이 일반적이다. 대체군을 형성할 때 결측이 발생한 변수와 연관성이 있는 변수들을 모두 포함하여 대체군을 형성한다면 대체군을 형성하는 변수의 숫자가 늘어남에 따라 대체군의 개수도 기하급수적으로 늘어나게 되어 특정 대체군 내에서는 대체값을 제공할 기증자를 찾지 못하여 대체를 실시하지 못하는 문제가 발생하게 된다. 이를 해결하기 위하여 대체군을 형성하기 위한 변수를 선택해야 하는 문제에 종종 직명하게 된다. 본 연구에서는 핫덱대체에서 대체군을 형성하는 변수를 선택할 때 결측이 발생한 변수와의 연관성 뿐 아니라 결측 발생 여부와의 연관성도 고려하여 변수를 선택하는 것이 바람직하다는 점을 논의한다. 모의실험을 통해 제안된 방법에 의한 변수 선택을 실시하여 핫덱대체를 실시하는 경우 결측이 발생한 변수와의 연관성만을 고려한 변수 선택에 근거한 핫덱대체보다 추정량의 편향을 줄일 수 있다는 점을 보였다.

      • KCI등재

        결측이 있는 영과잉 가산형 자료에 대한 포아송 모형의 모수 추정

        송주원 한국자료분석학회 2014 Journal of the Korean Data Analysis Society Vol.16 No.4

        Count data are analyzed under the Poisson distribution assumption. When Data contain more zeros than expected under the Poisson distribution, it is possible to analyze the data using the zero-inflated Poisson distribution. Lambert (1992) proposed the EM (expectation maximization) algorithm to estimate parameters of the zero-inflated Poisson model. When the count response variable includes missing values, complete-case analysis may produce biased parameter estimates if the missing data mechanism is not MCAR (missing completely at random). We propose the MCEM (Monte Carlo expectation maximization) algorithm to estimate parameters of the zero-inflated Poisson model when the count response variable is sometimes missing. Simulation is conducted to show that complete-case analysis can result in biased parameter estimates and the propose MCEM algorithm provide less biased parameter estimates under the MAR (missing at random) mechanism. Fishing data are analyzed to explain how to apply the proposed method to real data. 가산형(count) 자료에 대한 분석은 포아송 분포를 가정하여 실시하는데 이 때 포아송 분포에서 기대하는 것보다 0의 값을 가진 관찰치가 많은 경우 영과잉 포아송 분포(zero-inflated Poisson distribution)를 가정하여 분석을 실시할 수 있다. Lambert(1992)는 영과잉 포아송 모형에 대하여 EM 알고리즘을 통한 모수 추정 방법을 제안하였다. 가산형 반응 변수에 결측이 발생하는 경우 결측자료 메커니즘이 MCAR이 아니라면 결측이 발생한 자료를 제외한 채 완전한 자료 만에 근거한 분석을 실시하면 모수의 추정에 편향이 발생할 수 있다. 본 연구에서는 영과잉 가산형 자료에 결측이 발생하는 경우 적용할 수 있는 모수 추정 방법으로서 MCEM 알고리즘을 통한 모수 추정 방법을 제안한다. 모의실험을 통해 영과잉 포아송 모형에서 결측이 발생하는 경우 결측자료 메커니즘이 MAR이라면 결측된 자료를 제외한 채 완전하게 응답된 자료 만에 근거한 분석은 편향이 발생할 수 있음을 보이고 본 연구에서 제안한 MCEM 알고리즘을 통해 모수를 추정한다면 추정치에 편향이 덜 발생한다는 것을 보였다. 제안된 방법을 실제 자료에 적용하는 예제로서 낚은 물고기 숫자에 대한 영과잉 포아송 모형의 적합 결과를 설명하였다.

      • KCI등재

        결측을 포함한 반복측정자료 모형에서 결측자료 메커니즘의 영향

        송주원 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.3

        Missing values often occur in repeatedly measured data due to dropouts and other reasons. To conduct an analysis of repeatedly measured data, models include correlations among different time points for the same subject. It is known that this model does not delete any observed values due to missingness of other time points and provides unbiased estimates of the parameters if missing data mechanism is MAR(Litte and Rubin, 2002). The analysis of repeatedly measured data often follows a restrictive approach that includes only variables of interests and covariates, since this parsimonious model is simple and easy to explain. On the other hand, a simulation study by Collins, Schafer, and Kam(2001) shows that a restrictive model could provide biased parameter estimates if it does not include an explanatory variable which is related to both a response variable and missingness. Here, we conducted a simulation study to compare this restrictive model without the explanatory variable and the model with the explanatory variable for repeatedly measured missing data. Since the restrictive model may provide biased parameter estimates, it is more appropriate to select explanatory variables by considering the missing data mechanism as well. It is also indicated that the size of biases depends on the correlation among repeated measured variables. 반복측정자료에서는 관측개체의 중도탈락 등의 원인으로 인하여 결측이 흔히 발생한다. 반복측정자료를 분석하기 위하여 동일한 개체에 대한 반복측정된 다른 시점의 값들 사이의 연관성을 포함하는 모형이 적합되는데 이 모형은 결측자료 하에서 정보의 손실이 없고 결측자료 메커니즘이 MAR(Little and Rubin, 2002)을 따른다면 모수의 추정에 편향(bias)이 발생하지 않는다고 알려져 있다. 반복측정자료의 분석에는 주요 관심 대상이 되는 변수 및 공변량 만을 모형에 포함시켜 분석하는 제한적 모형(restrictive model)이 흔히 사용되는데 이는 절약모형(parsimonious model)이 해석 및 설명하기 쉽기 때문이다. 반면, Collins, Schafer, and Kam(2001)은 횡단면 분석을 위한 모형에서 반응변수 및 결측 발생과 연관된 설명변수가 포함되지 않은 제한적 모형이 결측자료에 적용된다면 모수에 편향이 발생할 수 있다는 점을 모의실험을 통해 보였다. 본 연구에서는 결측을 포함한 반복측정자료에서 반응변수 및 결측 발생과 모두 연관되어 있지만 주요 관심 대상이 되는 설명 변수와 연관되지 않아 공변량이 아닌 변수가 모형에 포함되지 않는 제한적 모형과 이 변수를 모형에 포함하는 모형에서 모수 추정에 편이가 발생하는 지를 모의실험을 통해 비교하였다. 제한적 모형의 경우 모수 추정에 편향이 발생하는 것으로 나타나 결측자료 분석에서는 결측자료 메커니즘을 고려하여 연관된 변수를 포함하는 모형이 적절하게 나타났다. 하지만 모수 추정의 편이는 동일한 개체에 대하여 반복측정된 값들 사이의 연관성이 높아짐에 따라 작아지는 것으로 나타났다.

      • KCI등재

        Multiple Imputation for Missing Data in the KLoSA Study

        송주원,이수영,윤초롱,윤라헬,송경화,김병원,이혜정,장지연 한국자료분석학회 2007 Journal of the Korean Data Analysis Society Vol.9 No.5

        Most survey data include missing values due to nonresponse. Especially, sensitive questions such as income or assets tend to show higher percentage of missing values. When missing values occur, complete-case analysis may lead to biased estimates in parameters. Korean Longitudinal Study of Aging(KLoSA) is a longitudinal study to evaluate aging trends in the Korean population and apply the results to the social welfare and labor policy. In 2006, KLoSA collected baseline data. We conduct multiple imputation based on hotdeck to handle missing values in the KLoSA baseline data. In this study, we explain the imputation method for filling in missing values and discuss the results of imputation.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
