양호진(Hojin Yang),정상훈(Sanghun Jeong),박대우(Daewoo Pak) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.4
전 지구적 현상으로 평균기온이 상승해오고 있는 것으로 알려져 있다. 우리나라 평균기온 역시 상승해오고 있기 때문에 부산과 인근 지역 평균기온 변화 패턴도 크게 다르지 않을 것으로 생각된다. 그러나 어떤 시점부터 평균기온이 상승했는가 하는 질문에는 쉽게 답을 할 수 없을 것이다. 기온을 비롯한 기후요소들은 서서히 영향을 받아 변화하는 특성 때문에 변화했다는 것은 인지 할 수 있지만 어떤 시점에서 급진적인 변화가 이루어졌는가를 판단하는 연구는 많지 않은 편이다. 본 연구에서 실제적으로 부산 인근 지역의 평균기온의 변화 시점을 발견하는 데 초점을 맞추고자 한다. 구체적으로 기상청의 자동화 장치에 의하여 수집된 평균기온 자료를 기존에 널리 사용되어온 시계열 분석 방법이 아니라 함수형 자료(functional data) 관점에서 분석하고자 하며 분석 결과를 통해 시계열 분석 방법과의 차이점을 확인한다. 함수형 자료 관점에서 분석하기 위해 각 자료에 대한 기저 함수를 유도하며 함수형 자료 분석(functional data analysis)에서 자주 사용되는 functional principal components(FPCs) 추정하고 이에 기반 한 변화점 탐지 모형을 적용하여 자료를 분석한다. 그 결과 변화점 이후의 추세와 이상치로 취급할 수 있는 특정 년도를 발견하였다. It is known that the average temperature has been increased as a global phenomenon. Since the average temperature in Korea has also been increased, it is expected that the pattern of changes in the average temperature in Busan and neighboring areas will not differ significantly. However, the question of when the average temperature has increased cannot be easily answered. It can be easily recognized that climate factors including temperature, have changed due to the characteristics that are gradually changed, but there are not many studies that determine at what point the radical change occurred. In this paper, we will focus on finding the time of change of the average temperature in Busan. Specifically, we intend to analyze the average temperature data collected by the Meteorological Agency s automated device by treating them as functional objects, not as time series. And we confirm the difference of result between functional data analysis and time series analysis. In order to derive the basis function for each data, we estimate functional principal components, which are often used in functional data analysis, and analyze the data by applying a change point detection model. As a result, we found a particular year that could be treated as an outlier and a trend after the change point.
기술적 비효율성의 오지정이 확률변경모형의 최대가능도 추정에 미치는 영향
양호진(Hojin Yang),이종민(Jongmin Lee),이동혁(Donghyuk Lee) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.5
확률변경모형은 투입된 생산요소 대비 산출되는 생산량의 효율성을 평가하기 위하여 널리 사용되는 계량경제학적 모형으로 실제 생산량이 최적 생산량보다 작은 현상을 기술적 비효율성이라는 개념을 도입하여 설명하는 모형이다. 통계학적으로 확률변경모형은 오차항이 정규분포인 일반적인 회귀모형에 기술적 비효율성을 나타내는 음이 아닌(non-negative) 확률변수를 뺀 형태로 구성되며 오차항과 비음의 특정한 확률변수의 차이로 정의되는 합성오차의 분포를 계산하여 최대가능도 추정방법으로 모수들을 추정한다. 하지만 근본적으로 기술적 비효율성은 관측이 불가하기 때문에 특정 확률분포를 가정해야 하므로 잘못된 분포를 가정하여 모형을 적합하게 되는 오지정(misspecification) 문제가 쉽게 발생하게 된다. 본 연구에서는 확률변경모형에서 기술적 비효율성이 오지정된 경우 오지정된 모형의 최대가능도 추정량들이 수렴하는 값들을 살펴보고자 한다. 오지정된 모형의 최대가능도 추정량들은 오지정된 모형과 참모형의 쿨백-라이블러 괴리도(Kullback-Leibler divergence)를 최소화하는 값으로 수렴하는 것을 이용하여 확률변경모형에서 이들을 계산하고, 모의실험을 통하여 확인하고자 한다. 이를 통하여 기존 문헌에서 언급된 기울기 모수들의 최대가능도 추정량이 기술적 비효율성의 분포와 관계없이 비슷하게 얻어지는 현상을 설명하고자 한다. The stochastic frontier model is a widely used econometric method for assessing production efficiency concerning the maximum achievable output given a specific input, where the difference between the maximum and actual production is referred to as technical inefficiency. Statistically, the stochastic frontier model adjusts a standard regression model with normally distributed errors by introducing a non-negative random variable to account for technical inefficiency. By computing the probability density of the composed error, which defined by subtracting the non-negative random variable from the normal error, the maximum likelihood estimators (MLE) for the stochastic frontier model can be obtained. In principle, the technical inefficiency cannot be directly observed so that the distributional assumption is necessary to fit the model. Consequently, it is common to encounter model misspecification problem, which involves inaccurate assumption of the distribution of technical inefficiency. This research aims to explore limiting behaviors of the MLE in the stochastic frontier model under misspecified technical inefficiency distribution. We also investigate the minimizers of the Kullback-Leibler divergence between the true and misspecified model, wherein the MLE obtained from the misspecified model converges. Subsequently, we employ Monte Carlo experiments to examine the finite sample performance and to explain the similarity of MLE for slope parameters regardless of the distributional assumption of technical inefficiency as mentioned in the previous studies.
함수형 시공간 기법을 활용한 지표면 온도의 변화점 분석
양호진(Hojin Yang) 한국자료분석학회 2024 Journal of the Korean Data Analysis Society Vol.26 No.1
기상 관측소에서는 기온, 강수, 습도 등 다양한 기상 변수들을 수집하고 있다. 이들은 특정 연도와 공간에서 규칙적이며 반복적인 시간 간격의 자료로서 수집되어 진다. 그러나 이상적으로 이들 변수는 관측 시간과 관계없이 연속함수 형태로 존재하고 규칙적인 시점에만 일부 표본으로 관측되는 것이 기상 자료의 특징이다. 이는 무한차원의 공간에서 연속함수로 존재하는 랜덤함수로부터 이산 시점에서 함숫값의 형태로 자료가 관측된다고 가정하는 함수형 자료 관점과 매우 밀접한 것으로 판단되며 이들은 기존의 접근 방법과 다른 통계적 기법을 필요로 한다. 본 연구에서는 전국 48개의 관측소에서 1981년부터 2022년까지 총 42년간 측정된 평균 지표면 온도를 함수형 자료로 가정하면서 전국 관측소에 대한 공간 평균의 변화점 존재 여부를 분석하고자 한다. 구체적으로 공간공분산과 시간공분산 각각을 추정한 후 공간공분산의 구조로부터 공간 정보를 통합할 수 있는 가중치를 추출하고 시간공분산의 구조로부터 시간 정보를 통합할 수 있는 고유함수와 고유치를 추출하였다. 이들을 활용하여 특정 시점 전후 간의 평균차에 관한 부분 합으로서 통계량을 표현하는 방법과 근사 분포를 소개한다. Weather stations collect various meteorological variables such as temperature, precipitation, and humidity. These variables have been measured at the regular and repetitive time points at the specific location in the year. However, ideally, the characteristic of the climate data is that these variables exist in the form of a continuous function regardless of the time points observed. This characteristic is considered to be close to the functional data perspective, which assumes that data are observed in the form of function values at discrete points from a random function that exists as a continuous function in an infinite-dimensional space, and they require statistical techniques that are different from existing approaches. In this study, we aim to analyze land surface temperature data to determine that there is a change point in the spatial average for almost domestic observatories, assuming that they measured over a total of 42 years from 1981 to 2022 at 48 sites is functional data. Specifically, after estimating the spatial and temporal covariances, the weight for integrating spatial information was extracted from the spatial covariance structure, and the eigenfunctions and eigenvalues for integrating temporal information were extracted from the temporal covariance structure. Based on this, we introduce a method of expressing statistics as a partial sum of the mean difference before and after a specific point in time, as well as an approximate distribution.
이항 회귀모형의 연결함수 오지정 문제에서 확률화된 분위수 잔차 사용에 대한 연구
양호진(Hojin Yang),이동혁(Donghyuk Lee) 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.5
반응변수가 베르누이 혹은 이항분포를 따를 때 공변량들로 관심사건이 발생할 확률을 예측하는 모형에 흔히 로지스틱 회귀모형이 사용된다. 이는 로지스틱 연결함수를 사용한 일반화 선형모형의 일종으로 실제 자료를 생성시키는 연결함수가 로지스틱 연결함수가 아닐 때 연결함수 오지정(link misspecification) 문제가 발생한다. 회귀모형을 진단하는 방법으로 잔차를 활용할 수 있지만, 반응변수가 범주형이면 잔차들의 활용도가 일반적인 선형회귀분석에 비하여 떨어지게 된다. 이를 보완하기 위하여 확률화된 분위수 잔차(randomized quantile residual)를 사용할 수 있는데 이들은 모형이 정확할 때 정규분포를 따르도록 정의되었다. 본 연구에서는 연결함수 오지정 문제를 진단하기 위한 확률화된 분위수 잔차의 활용도를 살펴보았다. 실제 자료를 생성시키는 연결함수가 로지스틱 연결함수가 아닐 때 로지스틱 회귀모형을 사용한 경우, 확률화된 분위수 잔차들의 정규성 검정을 통하여 연결함수의 오지정 유무를 진단할 수 있는지 다양한 모의실험을 통하여 검증하였다. 이를 통하여 로지스틱 연결함수가 실제 연결함수를 잘 근사하지 못하여 실제 연결함수가 적합된 로지스틱 연결함수와 차이가 클 때 확률화된 분위수 잔차들은 정규분포를 따르지 않게 됨을 확인하였다. Logistic regression model is usually used when the response is Bernoulli or binomial to predict the probability of event of interest. Specifically, the logistic model is a generalized linear model(GLM) where the assumed link function is the inverse CDF of the logistic distribution. The link misspecification often occurs when the true link is not the logistic link function. In addition, residuals in the binomial GLM model are of less practical use for diagnostics because the response is not continuous. Randomized quantile residuals are an alternative option because they are defined to follow the standard normal distribution. In this study, we investigated the usage of the randomized quantile residual to diagnose the link misspecification. When the logistic regression is fitted to the data where the true data generating process is irrelevant to the logistic link function, we consider the normality test on the randomized quantile residuals from the misspecified logistic regression model and explore whether the link misspecification can be detected or not via extensive simulation studies. We have found that the randomized quantile residual is far from the normality especially when the fitted logistic link function fails to approximate the true link function so that their gap is big.
양호진(Hojin Yang) 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.5
미세먼지는 인체에 유해한 화합물 등으로 구성되어 눈에 보이지 않는 입자로 공기 중에 떠다니며 대기 오염을 유발하거나 인체에 흡입되어 각종 질병을 유발한다. 기상청 개방포털에 의하면 미세먼지는 전국 28개 관측소에서 측정되어 이와 관련한 예보 및 경보 시스템 등에 널리 사용 된다. 본 연구에서는 측정된 미세먼지 자료를 함수형 공간 자료 모형에 의하여 추출된 자료라 가정하고 공간 통계학적 접근 방법과 함수형 자료 분석 방법을 결합하여 고정효과인 전국 평균 함수를 추정하고 예측할 수 있는 기법을 소개하고자 한다. 기존의 연구는 측정된 미세먼지를 설명하는 방법이 경시적 자료 분석법에 집중하였는데 이는 관측소의 위치가 균일하게 분포 되어 있지 않은 현실적 상황과 관측소간 거리의 차이 따라 종속성이 존재할 수 있다는 공간 자료의 특성을 고려하지 않은 접근법이다. 따라서 기존 분석법과 관련한 부분을 함수형 자료로 대체하여 적용하고 크리깅과 같은 공간 통계학적 방법을 적용하여 2021년 한 해 동안 획득된 미세먼지 자료를 분석하고자 한다. 구체적으로 전국 28개 관측소에서 얻어진 자료로부터 전국 미세먼지 평균을 이상치에 덜 민감한 가중평균을 통해 고정효과를 추정하고자 한다. 이를 위하여 경험적 베리오그램 분석을 통하여 공분산 과정을 추론하고 최적의 가중치들을 계산하고자 한다. 또한 어떠한 관측 장소에서도 미세먼지 농도를 예측할 수 있는 크리깅 방법을 소개하고 적용해보고자 한다. Particulate matter consisting of the chemical compounds harmful to human body and floating in the air as the invisible dust has been affecting on the air pollution or the various disease by inhaling into the human body. According to the Korea Meteorological Administration’s open portal, the particulate matter is measured at 28 sites and is widely used in forecasting and warning systems related to the particulate matter. In this paper, we will introduce an approach that can estimate the fixed effect and predict the future value by incorporating the spatial approach with the functional approach, assuming that the nature of the measurement for the particulate matter is a functional nature. While the existing studies have focused on the longitudinal data approaches, these approaches did not consider the characteristics of the spatial data that can have dependency between the sites and of the irregularity that the sites are not uniformly distributed across the spatial domain. To address this issue, we consider extending the existing approach to the functional data approach and applying the spatial approach such as kriging. Specifically, we consider the weighted mean being insensitive to extreme observations to account for the fixed effect from the real data obtained from 28 sites for 2021 year. To do this, we estimate the covariance process and compute the optimal weight through the empirical variogram analysis. Also, we apply a kriging method that can predict the value associated with the particulate matter at any given observational site.
이동혁(Donghyuk Lee),양호진(Hojin Yang) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.5
대기 중 이산화탄소는 온실가스로서 지표면으로부터 방출되는 복사에너지를 흡수하여 지표면의 생명체가 살기에 적당한 온도를 유지해주는 역할을 하고 있다. 그러나 급격한 산업화 과정 등의 인간의 활동으로 최근 들어 이산화탄소 농도가 증가하게 되면서 지구 온난화의 원인이 되고 있다. 이산화탄소 농도변화를 구체적으로 이해하고 모니터링하기 위하여 많은 연구은 현재와 과거의 이산화탄소와 관련한 수치 모형을 통하여 학습하고 미래의 이산화탄소 농도를 예측하고 있다. 본 연구에서는 국내 기상청에서 측정된 이산화탄소 농도 자료를 함수형 시계열 자료 모형에 의하여 추출된 자료라 간주하고 함수형 자료 분석 방법과 시계열적 분석 방법을 결합하여 함수 간의 시계열 모형을 소개하고 미래의 이산화탄소 농도를 예측하고자 한다. 기존의 연구는 연간 관측된 이산화탄소 농도를 계절 및 공간적 분류를 적용한 후 전통적인 시계열 및 경시적 자료 분석 기법을 활용하였다. 그러나 측정된 이산화탄소 농도는 시간이라는 정의역 공간위에서 관측되어진 연속함수로 가정하는 것이 개별적인 시점의 이산화탄소 농도를 독립적으로 가정하는 것보다 더 타당해 보인다. 따라서 전통적인 분석법에서 탈피하여 관측되는 자료를 함수형 자료로 가정하고 함수열 간의 시계열 관계를 유추하는 통계학적 방법을 사용하여 2001년부터 2021년까지 수집된 국내 이산화탄소 농도에 관한 시계열 관계를 추정하고자 한다. 또한 특정한 미래시점이 주어진 경우 이산화탄소 농도를 예측할 수 있는 방법을 소개하자 한다. Carbon dioxide (CO2) in the atmosphere is a greenhouse gas that absorbs radiant energy emitted from the earth's surface and maintains a suitable temperature for life on the earth. However, human activities such as rapid industrialization have recently increased the concentration of CO2, which has become a cause of global warming. In order to understand and monitor changes in CO2 level, many studies are learning through numerical models related to current and past CO2 level and predicting future CO2 level. In this study, we consider the CO2 data measured by the Korea Meteorological Administration as a functional time-series data model, incorporate the functional data method with the time-series method. Existing studies have used traditional time-series and longitudinal data approaches after fixing seasonal and spatial criterion to entire CO2 data. However, assuming that the CO2 level is a continuous function over the time space looks more reasonable than assuming the CO2 level is a scalar at individual time point. Therefore, a part from the traditional methods, we assume the observed data as functional data and use a functional data method to infer the dependent relationship between the functions and apply such a approach to the CO2 data collected from 2001 to 2021 in Korea. Also, we introduce forecasting method that can predict the CO2 level for a specific future time.
이채연(Yi, Chaeyeon),양호진(Yang, Hojin),이광진(Lee, Gwangjin),배민기(Bae, Mingi) 한국측량학회 2021 한국측량학회 학술대회자료집 Vol.2021 No.11
본 연구에서는 청주시를 대상으로 열스트레스가 높은 지역을 발굴하고 폭염 피해에 대응하기 위해 그린루프(옥상녹화), 쿨루프(차열페인트), 쿨링포그(안개분사), 클린로드(도로살수), 도시녹지 시나리오를 적용하였다. 도시규모의 미기후해석모델링 기법을 이용하여 폭염피해저감 시설이 온도나 열쾌적지수를 낮추는데 효과적인지를 추정하였다. 단기적으로 시행되는 쿨링포그와 클린로드는 물을 이용한 일시적인 기온 감소의 효과를 나타내나 시간지연에 따라 약간 상승하는 경향을 보이며, 열쾌적지수(UTCI)를 낮은 수준으로 변화시킨다. 장기적으로 그린루프와 쿨루프는 건물 지붕표면의 알베도를 변화시켜 표면온도를 낮추는 효과가 있다. 쿨루프를 적용한 지역은 초기에 기온 감소의 폭이 크며, 낮 동안 일사량 및 복사량이 증가함에도 불구하고 기온상승 폭이 가장 약한 것으로 나타났다. 도시 내에서 열스트레스가 가장 높은 산업단지를 상세분석한 결과, 열쾌적지수를 낮은 수준으로 변경한 시나리오는 쿨링포그, 쿨루프, 도시녹지 조성 시나리오였다. 이 3가지 시나리오가 청주에서 가장 열방출이 높은 산업단지와 주변지역에 적합하게 구현된다면 도시의 열환경과 에너지 소비가 개선될 수 있다. 본 연구의 결과가 폭염저감 시설 설치 및 폭염대응 정책에 대한 의사결정에 대한 민감도를 높이는 데 활용될 수 있을 것으로 기대한다.