RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목

      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
          • 원문제공처
          • 등재정보
          • 학술지명
          • 주제분류
          • 발행연도
          • 작성언어
          • 저자

        오늘 본 자료

        • 오늘 본 자료가 없습니다.
        더보기
        • 무료
        • 기관 내 무료
        • 유료
        • KCI등재

          자료통합을 위한 통계적 매칭방법 비교

          송지나,김영원 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.6

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          Recently, demand of statistics-users becomes more complex and diverse. And survey environment is also getting worse due to increasing of survey cost and personal information protection policy. As a way of solving such problems, study on the statistical matching has been actively done by many researchers. Statistical matching is a methodology used to merge microdata from several sample surveys into a single synthetic microdata file. Among various statistical matching methods, we investigated the methods proposed by Kadane (1978) and Moriarity (2009), and a new method which is a modification of the Moriarity for considering the non-normality of the survey materials is introduced. The case studies for comparison of efficiency of statistical matching methods were conducted using 2012 NaSTaB and KLIPS. In this study, we compared several statistical matching methods from the viewpoint of maintenance of assumed covariance for the matching, and differences and distributions of the imputed values and the actual values of recipient file. We found that the Mariarity method and the proposed new method are efficient than Kadane method in terms of mean squared imputed error and preservation of covariance structure. 최근 통계 자료 이용자들이 요구하는 자료의 형태나 수준이 매우 다양하고 복잡해지고 있으며, 이런 수요를 비용을 절감하면서 수용하기 위해서는 두 개의 독립적인 조사를 병합해서 활용하는 방안을 고려할 필요가 있다. 이런 관점에서 본 연구에서는 독립적인 두 조사 자료를 통계적인 방법을 이용하여 하나의 자료로 통합하는 통계적 매칭(statistical matching) 방법들의 장단점을 살펴보기 위해 두 개의 조사 자료를 활용한 사례분석 결과를 제시한다. 다양한 통계적 매칭 방법 중 Kadane(1978)과 Moriarity(2009)가 제안한 매칭 방법과 함께, 조사 자료의 비정규성을 고려하여 Moriarity의 방법을 변형한 새로운 방법을 제안하고, 세 가지 매칭방법의 효율성을 사례연구를 통해 비교하였다. 2012년도 재정패널조사 자료와 한국노동패널조사 자료 중 일부 변수를 대상으로 통계적 매칭 방법을 적용해 통합자료를 구축한 후 매칭방법의 효율성을 비교하였다. 조건부독립가정이 성립하는 경우와 성립하지 않는 경우를 모두 검토하였으며, 매칭방법의 효율성 비교를 위해 모형 설정을 위해 가정한 공분산이 통합자료에서도 그대로 유지될 수 있는지, 원래 자료의 값과 매칭 과정을 통해 대체된 값의 차이, 통합 자료의 분포가 원래 자료의 분포와 어느 정도 일치하는지 등의 관점에서 매칭 방법들의 장단점을 비교하였다. 사례분석 결과 조건부 독립 가정의 성립 여부와 관계없이 Moriarity의 방법과 본 연구에서 제안한 새로운 방법이 Kadane 방법에 비해 설정된 모형의 공분산을 유지한다는 것과 수용자 파일의 분포와 비슷한 분포를 복구할 수 있다는 관점에서 우수한 것으로 나타났다.

        • KCI등재

          DataGuide와 TS2000의 재무자료의 질에 대한 연구

          남현정 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.4

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          The purpose of this research is to examine errors of financial data produced by Korean financial information database providers' produce. In Korea, there are two major financial information database providers; DataGuide provided by FnGuide and TS2000 operated by Korea Listed Company Association. As these two financial information databases are the most prestige database, almost empirical researches in Korea use them. Additionally, we examine whether faulty financial data may affect or even mislead decision making by using bankruptcy prediction model suggested by Altman's (1980) based on different data sources. The study examines errors and differences of financial data produced by two major Korean financial information database providers, DataGuide and TS2000. We analyze differences of ten variables for the 677 firms listed in the KSE and 20,310 observations over three years (2011-2013). We find 1,194 (5.88%) differences out of 20,310 observations from financial statement, income statement, and stock data provided by DataGuide and TS2000 and also five variables out of ten key variables are statistically significant different. We also test insolvent firm forecasting employing Altman (1968)'s bankruptcy prediction model using DataGuide and TS 2000. The empirical results shows that 8 (42.9%) insolvent firms are wrongly predicted as normal firms in using DataGuide while TS2000 predicts 7 (50%) insolvent firms as normal firms out of 14 insolvent firms. In addition, comparing Altman (1968) Z-score using DataGuide and TS2000 shows significant different results statistically. 본 연구의 목적은 재무정보회사에서 제공하는 재무자료를 비교하여 오류 가능성을 알아보는 것이다. 분석을 위하여 첫째, 상장사협의회에서 제공하는 TS2000의 재무자료와 FnGuide에서 제공하는 DataGuide의 재무자료를 비교하여 재무자료의 오류 여부를 살펴보고 이 때 발생한 오류가 사소한 오류인지 혹은 오류의 범위가 큰 심각한 오류인지를 알아볼 것이며 오류가 통계적으로 유의한 차이가 있는가를 파악한다. 둘째, Altman(1968)이 제시한 도산예측모형에 DataGuide와 TS2000의 데이터를 이용한 기업의 파산예측결과가 일치하는가를 살펴본다. 또한 Altman(1968)이 제시한 Z-score를 측정하여 재무정보회사의 자료간의 Z-score의 일치여부를 알아볼 것이다. 이를 위하여 한국의 677개 비금융 상장기업의 2011년에서 2013년에 해당하는 3년간의 자료를 사용하여 TS2000과 DataGuide의 재무상태표, 손익계산서 및 주가자료로 구성된 자료를 비교하였다. 20310개의 데이터의 오류를 비교한 결과, 1194개(5.88%)가 불일치하는 것으로 나타났으며, 10개의 변수 중 5개 변수에서 통계적으로 유의한 차이를 발견하였다. 또한 Altman(1968)의 파산예측모형을 도입하여 재무정보회사에 따라 부실기업의 예측력에 대한 분석결과, DataGuide의 자료를 이용한 경우, 14개의 기업 중 10개를 부실기업으로 예측하였으며 TS2000의 자료를 이용한 경우, 14개중 9개로 나타났다. 또한 Z-score의 경우, DataGuide와 TS2000의 자료의 차이가 유의하게 다른 것으로 나타났다. 이상의 연구결과는 한국시장을 대상으로 재무정보회사에서 제공하는 재무자료의 오류를 분석함으로써 지금까지 미국을 대상으로 시행된 연구의 갭을 보완할 수 있었다. 한편, 재무정보회사가 제공하는 재무정보는 신뢰성 높은 데이터로 간주되고 있으나, 재무정보회사에서 제공하는 재무자료의 오류 수준을 공개함으로써 재무정보회사의 재무자료의 질을 높일 수 있는 기회가 될 것이다.

        • KCI등재

          정준대응분석을 활용한 생태환경자료 방향성 분석 고찰

          정형철 한국자료분석학회 2012 Journal of the Korean Data Analysis Society Vol.14 No.5

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          A mixed two way contingency tables are observed in ecology which have two types structures with categorical data and continuous data. This type is called 'species-abundance- environmental' data in ecological statistics. Canonical correlation analysis and simple correspondence analysis have become the instruments of choice for data analyst of species abundance. But, environmental factors have affected on species abundance, and community ordinations have appeared on environment directions. In addition, an arch effect has been observed in ecology data frequently. In this study, we introduce the detrended canonical correspondence analysis for the species-abundance-environmental data, which is the one of the methods to find the community ordination. 생태학에서는 장소별 종의 출현을 빈도로 표현 한 이차원 분할표 자료가 종종 관찰된다. 이러한 자료를 종-발현(species-abundance) 자료라 한다. 그런데, 개체 출현 빈도는 해당 장소의 환경 인자에 영향을 받을 수 있다. 종-발현 표에 환경 인자가 추가된 구조의 자료를 종-발현-환경(species-abundance-environment) 자료라 한다. 일반적으로 장소에 따른 종의 출현 정도에 대한 분석으로 정준상관분석이나 대응분석 등이 사용되나 환경 인자가 추가된 경우, 환경의 영향력을 고려한 정준대응분석이 필요하다. 한편, 종-발현 자료에 단순 대응분석을 시도하면 종종 아치효과가 나타난다. 본 연구에서는 아치효과를 제거하면서, 환경 인자의 방향성에 따른 종의 출현 빈도를 고려하는 무경향 정준대응분석을 소개하고 이에 대한 자료분석을 다루었다.

        • KCI등재후보

          고층관측자료에 나타난 서해중부해상에서 바람의 연직구조 변화

          류찬수,안명환 한국자료분석학회 2003 Journal of the Korean Data Analysis Society Vol.5 No.2

          1999년 4월 10일부터 4월 14일까지 서해중부해상에 위치한 외연도에서 실시된 고층기상관측자료를 활용하여 서해중부해상의 바람의 연직구조 변화를 조사하였으며, 그 결과는 다음과 같이 요약된다.1. 바람의 직교성은 이동성 고기압의 영향하에서 혼합층 고도에서의 풍향이 전 고도(0∼4,000m)에 걸쳐 출현하였으며 풍향전환은 없었으나 기압골의 영향을 받는 기간동안에는 혼합층 고도 부근에서 풍향의 전환이 나타났으며, 이는 구름의 형성, 발달을 판단하는 데 중요하다.2. 바람의 연직시어의 최대값은 하층 강풍현상과 관련이 있었으며 혼합층 고도 부근이나 풍향 전환이 나타나는 고도에서 크게 나타났다. 또한 상층의 바람시어는 풍향의 변화에 의해 주로 나타났다. 외연도의 하층 강풍현상은 지표 및 상층 역전층의 형성과 외연도의 지형적 효과에 기인하였다.3. 선 적분법에 의한 고층관측자료의 활용 가능성을 평가한 결과, 최대 와도값의 출현 시각은 4월 12일 15LST이었고, 수렴에서 발산으로 전환 시각은 4월 12일 21LST로 종관 기압계의 발달, 이동을 파악할 수 있었다. 변형의 유형은 이동성 고기압의 영향 하일 경우 변형 B형, 그리고 기압골의 영향의 경우 변형 A형으로 구분되었다.이들 결과를 통하여 서해중부해상의 외연도에서 실시된 고층기상관측은 육상의 오산, 광주의 고층기상자료를 활용하여 서해상에서 접근해오는 악기상 관련 종관 시스템의 조기 진단으로 한반도 단기 기상예보 능력 향상에 기여할 수 있다는 실험적 자료로 활용이 가능하리라 사료되며, 해상에서 얻어진 고층기상관측자료를 중규모 자료동화시스템에 적용하여 해상의 추가 고층관측자료가 기상예보에 미치는 예보 민감도 연구의 자료로도 활용되리라 판단된다. 최근에 기상청에서 서해상의 섬에 추진중이 해양종합과학기지 구축이나 기상예보에 가장 큰 영향을 주는 풍상측 지역에 관측망을 확충하는 최적관측(adaptive observation)의 개념과 맥락을 같이 한다고 볼 수 있다. 향후 서해해상의 집중(지상, 고층)관측은 계절별, 지점별 지속적으로 수행되어야 되며, 이들 자료들의 체계적인 관리 및 분석은 이러한 한반도 단기 기상예보와 해상기상예보 향상에 크게 기여할 것으로 사료된다.

        • KCI등재

          동태적 조건부 상관성을 이용한 미세먼지 자료분석

          김성태,박만식 한국자료분석학회 2019 Journal of the Korean Data Analysis Society Vol.21 No.6

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          It is very important to study the correlation structure among multivariate time-series processes measured over time at some monitoring stations. In case of spatial or spatial-temporal data, variogram and auto-correlation are commonly used. The dynamic conditional correlation structure (DCC) proposed by Engle (2002) has been one of major statistics employed in the economic and financial fields. It measures the time-varying correlation coefficients among time-series processes based on the generalized auto-regressive conditional heteroskedasticity (GARCH) models. In this study, we analyze the PM2.5 hourly time-series data at 18 monitoring stations in Seoul during the 3rd quarter, 2018. Each time-series process is fitted by an appropriate GARCH model and, then, the time-varying correlations among the 18 processes are estimated by the DCC. Finally, we examine how the correlation value changes with inter-station distance. 여러 지점에서 일정 시간에 걸쳐 관측된 시공간 자료들 간의 상관성 연구는 매우 중요한 분야이다. 공간 자료상의 베리오그램(variogram)이나 시계열 자료상의 자기상관성(auto-correlation) 등 많은 중요한 통계량들이 활용되고 있다. Engle(2002)에 의해 제안된 동태적 조건부 상관구조(dynamic conditional correlation; DCC)는 경제 및 금융분야에서 활발하게 사용되고 있는 통계량으로, GARCH모형을 기반으로 시계열 간의 시변하는(time-varying) 상관관계를 측정한다. 본 연구에서는 동태적 조건부 상관구조를 활용하여 서울 지역에서 관찰된 초미세먼지(PM2.5) 자료를 분석하고자 한다. 이를 통해 각 관측지점에 관측된 시계열 자료를 적절한 형태의 GARCH모형(eGARCH, tGARCH)으로 적합하고, 시계열 간의 시변하는(time-varying) 상관관계를 추정하고자 한다. 일반적인 공간자료가 가지는 속성 중 하나인 공간상관성(spatial association)은 인접한 지점에서 관측한 자료일수록 상관관계가 크다는 것을 의미한다. 따라서 동태적 조건부 상관구조가 관측지점의 거리에 따라 어떤 양상을 보이는지를 살펴보고자 한다. 이를 통해 보다 광범위한 시공간 자료에 DCC를 활용할 수 있는 방안을 모색하고자 한다.

        • KCI등재

          영과잉 포아송-로그정규회귀모형의 시뮬레이션 최대우도추정

          이동희 한국자료분석학회 2013 Journal of the Korean Data Analysis Society Vol.15 No.3

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          The normal regression model has limits in the research when categorical variables, especially such as count data, are observed. Poisson regression models has an important role in count data analysis as the normal regression models occupy a prominent place in continuous data analysis. The Poisson regression model has a drawback which its mean should be equal to its variance, although it is hard for a mean and a variance to be equal in real data analysis. Especially, the overdispersion, which means that the variance is greater than the mean, occurs very often. Negative binomial distributions or Poisson-lognormal distributions are used instead of Poisson distribution in the count regression models as solving the overdispersion. The negative binomial distribution is a mixing distribution between Poisson and gamma distributions, and thus it can be adapted easily due to an explicit form. On the other hand, the Poisson-lognormal regression models are difficult for researchers to use because the mixing distribution between Poisson and lognormal distributions does not have an explicit distribution, and it is so hard to obtain statistical inferences. This research proposes the zero-inflated Poisson-lognormal regression models in order to cover the overdispersion and zero-inflation in the count data, and the estimates based on the simulated maximum likelihood estimation. Empirical study shows that the proposed model is performed better than zero-inflated Poisson and zero-inflated negative binomial models, which are often used in zero-inflated count data. 변수들간의 인과관계와 관련된 특정 가설에 대한 정합성을 살펴보거나 자료에 대한 탐색과정에서 다양한 분야의 연구자에 의해 널리 사용하는 대표적인 분석방법인 회귀모형에서 종속변수가 개수자료라면 정규회귀모형으로서는 자료가 가지고 있는 정보의 의미를 제시하는데 한계를 갖는다. 이때 포아송회귀모형은 연속형 자료에 대한 모형화에서 정규회귀모형이 중요한 역할을 하는 것과 마찬가지로 개수자료에 대한 분석도구로써 일반적으로 사용되는 방법이다. 개수자료에 대한 표준적인 모형 수립을 위한 도구인 포아송회귀모형은 분포의 특성상 평균과 분산이 같아야 한다는 제약을 가지고 있는데, 실제 자료에서 평균과 분산이 같은 경우는 찾아보기 어렵다. 특히 평균에 비해 분산이 크게 나타나는 과대산포 현상이 발생하는 것이 일반적이다. 흔히 과대산포 문제를 보완하기 위해 포아송분포 대신 음이항분포나 포아송-로그정규분포들을 사용하는데, 포아송-감마 혼합분포의 결과로 만들어지는 음이항분포에 비해, 포아송-로그정규분포는 명확한 분포의 형태를 띠지 않기 때문에 추정 과정에 어려움이 발생한다. 그러나 포아송-로그정규분포는 정규분포의 특성상 이론적인 측면에서 다양한 상황에 대한 모형화가 가능하다는 점에서 매우 유용하다. 본 연구에서는 개수자료에서 흔히 나타나는 현상인 영과잉 형상에 적용하기 위한 영과잉 포아송-로그정규회귀모형과 최대우도추정량을 구하기 위해 시뮬레이션 최대우도에 근거한 추정방법을 함께 제시하였다. 영과잉된 실제 자료에 대한 추정결과를 비교한 결과 기존의 영과잉 포아송회귀모형이나 영과잉 음이항회귀모형에 비해 우수한 것으로 나타났다.

        • KCI등재

          신경망에 의한 유전자 발현 자료의 결측값 추정

          오미라,김경숙,손영숙 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.1

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          In a microarray data analysis, it is required the preprocessing procedure that missing values are replaced with their estimates. In this paper, we used the multilayer perceptron (MLP) neural network(NN) model to estimate missing values for microarray gene expression data. The NN moel is estimated by training the back propagation algorithm, after constituting the NN model with samples of complete genes corresponding to missing values of a target gene as output nodes and samples of complete genes corresponding to observed values of a target gene as input nodes. Finally, in a test data, missing values are estimated by substituting that of a target gene for an input vector of an estimated NN model. It is thought that the NN method, nonlinear prediction method, is useful for cyclical time course data that seems to be nonlinear between missing values and an input vector in the view of normalized root mean square error through a simulation study for three yeast time course data set, breast tumor, and prostate tumor data sets. 마이크로어레이 자료분석에서 결측값들을 추정치로 대체하는 결측값 추정의 전처리 과정이 필요하다. 본 논문에서는 마이크로어레이 유전자 발현 자료에 대한 결측값 추정을 위하여 다층 인식자(mutilayer perceptron: MLP) 신경망(neural network: NN)모형을 사용하였다. 먼저 목표유전자의 결측값들에 상응하는 완전유전자의 표본을 출력노드로 하고, 목표유전자의 관측값들에 상응하는 완전유전자의 표본들을 입력노드로 하는 NN모형을 구성한 후에 역전파(back propagation) 알고리즘을 훈련하여 NN모형을 추정한다. 다음으로 검증용 자료에서 목표유전자의 입력벡터 값을 훈련용 자료로 부터 추정된 NN모형에 대입하여 결측값을 추정한다. 세 가지의 이스트(yeast) 시간경로 자료들과 유방암과 전립선암 자료들에 대한 모의실험을 통해서 얻어지는 정규화된 제곱근 평균제곱오차의 관점에서 결측치와 입력벡터 간에 비선형관계의 가능성이 있다고 보여지는 주기성 시간경로 자료에 대하여 비선형 예측방법인 신경망방법이 유용하다고 판단된다.

        • KCI등재

          국민건강영양조사자료를 이용한 한국 성인의 관절염 유병율 분석

          박승하,이동숙,김영주 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.4

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          Arthritis is one of the most common chronic disease in Korean adults and its prevalence is constantly increasing recently. This study aim at identifying risk factors on the prevalence of arthritis of Korean adults by using "The Third Korea National Health and Nutrition Examination Survey(hereafter, KNHANES)". We analyzed the data of Korean adults over thirties and examined risk factors for Korean males and females separately so that risk factors which were available only for females were included in the analysis. Throughout logistic regression models that are adapted the sampling scheme of KNHANES we found the risk factors for all adults such as age, sex, education level, BMI, alcohol intake, and stress. For females only, risk factors such as age, education level, BMI, menopause, and the number of pregnancy were found; however for males only, age and alcohol intake were found significant. If more data were available then more precise result can be expected. 관절염은 우리나라 성인의 주요 만성질환 중 하나로써 최근에 관절염 유병율이 꾸준히 증가하고 있는 추세이다. 본 연구는 국민건강영양조사자료의 3기 자료를 이용하여 한국 성인들의 관절염 유병율에 영향을 미치는 위험인자를 파악하는 데 목적을 두고 있다. 한국 30대 이상의 성인들을 대상으로 하되, 남성과 여성에 대한 관절염 위험인자를 각각 파악하였으며 이를 위하여 여성에 대한 위험인자를 추가 조사하였다. 국민건강영양조사자료의 표본추출방법을 고려한 로지스틱 회귀모형을 이용하여 조사한 결과, 성인 전체에 대한 관절염 위험인자는 나이, 성별, 교육수준, BMI, 음주여부, 스트레스로 나타났다. 그러나 여성만을 대상으로 조사한 경우 나이, 교육수준, BMI, 폐경여부, 임신횟수가 유의하게 나타났고, 남성만을 대상으로 조사한 경우 나이와 음주여부가 위험인자로 나타나 남성과 여성 사이에 관절염 위험인자에 차이를 보였다. 좀 더 충분한 자료가 얻어진다면 보다 정확한 결과를 얻을 수 있을 것으로 기대된다.

        • KCI등재

          영과잉 계수형 자료 분석을 위한 허들 나무모형 구축

          백유민,조형준 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.4

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          영과잉 계수형 자료란 반응변수가 0 이상의 숫자로 이뤄진 자료 중 0이 과도하게 관측되는 형태를 의미한다. 영과잉 계수형 자료를 분석하기 위한 모형으로 영과잉 포아송 모형, 허들 모형 등이 개발되었으며 이를 위한 의사결정나무 방법론으로 영과잉 포아송 나무모형이 제안되었으나 분류변수선택의 편향과 과도한 계산비용의 문제가 발생하였다. 이를 해결하기 위해 영과잉 자료분석을 위한 의사결정나무가 제안되었지만 특정 형태의 영과잉 계수형 자료만 설명할 수 있다는 한계가 있다. 따라서 본 논문에서는 모든 형태의 영과잉 계수형 자료를 아우를 수 있도록 영과잉 포아송 모형이 아닌 허들 모형을 기반으로 한 의사결정나무 모형을 제안하고자 한다. 또한 분류변수 선택과 분류지점 선택을 분리한 잔차분석방법을 통한 알고리즘을 제안하였다. 이를 분류 가능한 모든 경우를 고려하는, 기존의 의사결정나무 알고리즘으로 널리 알려진 전체탐색 방법과 비교하여 변수 선택과 계산시간의 비효율성이 개선됨을 검증하였다. 마지막으로 실제 사례에 전체탐색방법과 잔차분석방법을 기반으로 한 나무모형을 적용시켜 제안한 모형의 효율을 확인하였다. Zero-inflated count data refers to a form in which zeros are overestimated in responses with a number greater than or equal to zero. For analyzing zero-inflated count data, zero-inflated Poisson and Hurdle models were developed. A zero-inflated decision tree was also developed, but it has a bias problem in selecting split variables and excessive computational cost. To solve these problems, an alternative decision tree algorithm has been proposed, but it is limited in that only certain types of zero-inflated data can be explained. Therefore, we propose a new decision tree based on a Hurdle model rather than a zero-inflated Poisson model to cover all forms of zero excess count data. Our proposed algorithm is based on residual analysis that separates split variable and point selections. It is verified that split variable selection and computation time can be improved by comparing with the conventional search algorithm. Finally, the efficiency of the proposed model is confirmed by comparing exhaustive search method and residual analysis with simulated and is demonstrated with real data.

        • KCI등재

          준연속형 비율자료를 반응변수로 갖는 회귀모형

          이동희 한국자료분석학회 2015 Journal of the Korean Data Analysis Society Vol.17 No.6

          '스콜라' 이용 시 소속기관이 구독 중이 아닌 경우, 오후 4시부터 익일 오전 7시까지 원문보기가 가능합니다.

          Recently, the need for new analytical method becomes more and more, as sufficient data in various fields have been accumulated. Regression model, as one of the most widely used in statistical tools, so they can utilize various forms of materials in accordance with these requirements, changes to via a different distribution or transformation. This study proposes a regression model using the mixture distribution to fit the proportion data of semi-continuous type, which has a probability mass in a certain discrete values, and estimation method based on maximum quasi-likelihood. Most regression models for the proportion data have used a data transformation, such as a logit transformation, for the response variable and a likelihood estimation based on distribution suitable for the proportion. But it is difficult for these models to apply semi-continuous proportion data, since distributional assumptions are not acceptable. As result, it is likely that the most regression models cannot provide the exact statistical inference. Through the empirical study, the proposed model shows that results for the estimates and fit statistics have no difference with others. Furthermore, it is possible to identify a characteristic with the proposed model, which the other models cannot clarify. 과거에 비해 다양한 분야에서 충분한 자료가 축적되면서 이에 적합한 새로운 분석방법에 대한 필요성이 점차 늘어나고 있다. 회귀모형은 여러 영역에서 가장 널리 사용되는 통계적 도구 가운데 하나로써 이러한 요구에 따라 다양한 형태의 자료들을 이용할 수 있도록 다양한 분포 가정이나 변환 등을 통해 변화하고 있다. 본 연구에서는 특정 이산값에서 확률질량을 갖는 자료인 준연속형 비율자료를 적합하기 위한 혼합물분포를 이용한 회귀모형과 최대의사가능도추정방법을 제안하고자 한다. 특히 비율자료를 다루기 위해 이제까지 제안된 회귀모형들은 대부분 로지스틱 변환 등을 이용하여 선형예측값을 변환한 후 베타분포 등과 같이 적절한 분포를 적용하는 방법을 이용하고 있는데, 준연속형 비율자료에 이들 방법을 적용할 경우 가정한 분포와의 차이가 발생할 수밖에 없어 정확한 통계적 추론결과를 제시하기 어렵다. 실제 자료를 이용하여 살펴본 결과 본 연구에서 제안한 방법은 특정 이산값에서의 관찰값이 나타나지 않는 비율자료의 경우 기존의 방법과 유사한 결과를 보여주었다. 그러나 준연속형 비율자료를 사용한 경우에는 기존 모형들보다 우수한 적합력을 나타냈으며, 기존 모형들에서는 밝혀낼 수 없는 자료가 갖는 특성을 식별할 수 있음을 보여주었다.

        맨 위로 스크롤 이동