http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Feature selection based on rough set theory using feature space decomposition for mixed-type data
Kyung-Jun Kim(김경준),Chi-Hyuck Jun(전치혁) 한국경영과학회 2016 한국경영과학회 학술대회논문집 Vol.2016 No.4
Feature selection plays an important role in classification problems dealing with mixed-type data. The main idea of feature selection is to reduce the dimensionality of the input space while preserving the classification accuracy by selecting the most important input features. The rough set theory can be an appropriate way of measuring the importance of features in a classification problem, as seen in recent studies. Previous papers related to feature selection based on the rough set theory also considered property of mixed-type data, however, they failed to investigate the properties of numerical and categorical features. To overcome the limitation, we suggest a concept of feature space decomposition. In addition, for fair measure between numerical and categorical feature, we use Heterogeneous Euclideanoverlap Metric (HEOM). Finally, we conduct and show experimental results to compare our proposed method with several benchmarking methods and select the appropriate features through the forward selection algorithm.
표본코호트기반 고지혈증 약제의 저밀도 콜레스테롤 감소량 및 투약순응도 분석
김규진,전치혁,이혜선,김헌성,Kim, Kyu-Jin,Jun, Chi-Hyuck,Lee, Hyeseon,Kim, Hun-Sung 한국데이터정보과학회 2017 한국데이터정보과학회지 Vol.28 No.5
Hyperlipidemia, the status of blood with high level of low-density lipoprotein cholesterol (LDL-C), is known as a main cause of coronary artery diseases such as myocardiac infarction or brain infarct. Statin is the representative prescription to hyperlipidemia and the effects of it depend on the patient's individual conditions such as health-caring habits or adherence to medication. The main effect of statin is reducing LDL-C, which should reach the target range based on National Cholesterol Education Program-Adult Treatment Panel III (NCEP-ATP III) guideline. In this research, the reduction of LDL-C and attainment to patient's target range are considered effects of statin. The association between factors - individual conditions and adherence to medication of patients - and the effects of statin is analyzed with National Health Insurance Service-National Sample Cohort (NHIS-NSC). 고지혈증은 혈액 중에 지방 성분이 필요이상으로 많은 상태를 의미하며, 특히 저밀도 콜레스테롤이 혈관벽에 달라붙어 심근경색증, 뇌경색 등의 다양한 심혈관계의 질병을 발생시킬 수 있다. 스타틴은 대표적인 고지혈증 처방제로서 처방 받는 환자의 개별적인 특성 및 건강관리형태, 투약순응도 등에 따라 그 효과가 달라진다. 스타틴의 주요 효과는 저밀도 콜레스테롤 수치를 낮추는 것인데, 이는 National cholesterol education program-adult treatment panel (NCEP-ATP III) 가이드라인에서 환자의 조건에 따라 정한 목표 수치에 도달해야 한다. 본 연구에서는 저밀도 콜레스테롤 수치의 감소량과 환자 별 목표 수치 도달여부를 각각 스타틴의 효과로 상정하고, 국민건강보험공단에서 구축한 표본코호트 DB를 이용하여 건강검진기록의 개별특성 (나이, 성별, 흡연, 운동 및 혈액검사결과)과 처방전 기록으로부터 투약순응도를 통합해서 저밀도 콜레스테롤 감소량 및 목표도달률에 미치는 영향을 분석하고자 한다.
Feature selection based on rough set theory using feature space decomposition for mixed-type data
Kyung-Jun Kim(김경준),Chi-Hyuck Jun(전치혁) 대한산업공학회 2016 대한산업공학회 춘계학술대회논문집 Vol.2016 No.4
Feature selection plays an important role in classification problems dealing with mixed-type data. The main idea of feature selection is to reduce the dimensionality of the input space while preserving the classification accuracy by selecting the most important input features. The rough set theory can be an appropriate way of measuring the importance of features in a classification problem, as seen in recent studies. Previous papers related to feature selection based on the rough set theory also considered property of mixed-type data, however, they failed to investigate the properties of numerical and categorical features. To overcome the limitation, we suggest a concept of feature space decomposition. In addition, for fair measure between numerical and categorical feature, we use Heterogeneous Euclideanoverlap Metric (HEOM). Finally, we conduct and show experimental results to compare our proposed method with several benchmarking methods and select the appropriate features through the forward selection algorithm.
연료 소비 패턴 발견을 위한 컨테이너선 운항데이터 분석의 통계적 절차
김경준,이수동,전치혁,박개명,변상수,Kim, Kyung-Jun,Lee, Su-Dong,Jun, Chi-Hyuck,Park, Kae-Myoung,Byeon, Sang-Su 한국통계학회 2017 응용통계연구 Vol.30 No.5
This study proposes a statistical procedure for analyzing container ship operation data that can help determine fuel consumption patterns. We first investigate the features that affect fuel consumption and develop the prediction model to find current fuel consumption. The ship data can be divided into two-type data. One set of operation data includes sea route, voyage information, longitudinal water speed, longitudinal ground speed, and wind, the other includes machinery data such as engine power, rpm, fuel consumption, temperature, and pressure. In this study, we separate the effects of external force on ships according to Beaufort Scale and apply a partial least squares regression to develop a prediction model. 본 연구는 컨테이너선의 연료 소비 패턴의 발견을 위해 운항데이터 분석의 통계적 절차를 제안한다. 우리는 현 시점의 연료 소비를 발견하기 위해 연료 소비에 영향을 미치는 변수들을 파악하는 동시에 예측 모델을 개발 및 적용하는 것을 목적으로 한다. 선박의 데이터는 크게 운항데이터와 기기데이터로 분류할 수 있으며, 운항데이터는 항로, 항해 정보, 대수속도, 대지속도, 바람과 같은 외력에 대한 정보 등이 있고, 기기데이터는 엔진출력, RPM, 연료 소모량, 기기들의 온도 및 압력 등이 있다. 본 연구에서, 우리는 선박에 미치는 외력의 영향을 Beaufort Scale (BFS)을 기준으로 구분한 후에 PLS 회귀분석을 통한 예측 모델을 개발하였다.
혼합모델 및 다중 가설 검정을 이용한 신호와 잡음의 분류
박해상,유시원,전치혁,Park, Hae-Sang,Yoo, Si-Won,Jun, Chi-Hyuck 한국통계학회 2009 응용통계연구 Vol.22 No.4
본 논문은 신호와 잡음이 혼합된 관측치로부터 신호 관측치를 분류하는 문제를 다룬다. 잡음은 가우시안 분포를 따르고 신호는 감마 분포를 따른다고 가정할 때 관측치의 분포는 가우시안과 감마의 혼합 분포를 따르게 된다. EM 알고리즘을 통해 혼합 모델의 모수를 추정하고 신호 및 잡음을 분류하는 것을 다중 가설 검정으로 간주하여 베이즈 오류를 바탕으로 분류를 위한 경계치를 설정한다. 제안하는 방법을 분광 데이터에 근거하여 철강 제품에서 개재물 유무를 검출하는 문제에 적용하였고 별도의 시뮬레이션 데이터를 통해 성능의 우수성을 보였다. A problem of separating signals from noises is considered, when they are randomly mixed in the observation. It is assumed that the noise follows a Gaussian distribution and the signal follows a Gamma distribution, thus the underlying distribution of an observation will be a mixture of Gaussian and Gamma distributions. The parameters of the mixture model will be estimated from the EM algorithm. Then the signals and noises will be classified by a fixed threshold approach based on multiple testing using positive false discovery rate and Bayes error. The proposed method is applied to a real optical emission spectroscopy data for the quantitative analysis of inclusions. A simulation is carried out to compare the performance with the existing method using 3 sigma rule.