http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Feature selection based on rough set theory using feature space decomposition for mixed-type data
Kyung-Jun Kim(김경준),Chi-Hyuck Jun(전치혁) 한국경영과학회 2016 한국경영과학회 학술대회논문집 Vol.2016 No.4
Feature selection plays an important role in classification problems dealing with mixed-type data. The main idea of feature selection is to reduce the dimensionality of the input space while preserving the classification accuracy by selecting the most important input features. The rough set theory can be an appropriate way of measuring the importance of features in a classification problem, as seen in recent studies. Previous papers related to feature selection based on the rough set theory also considered property of mixed-type data, however, they failed to investigate the properties of numerical and categorical features. To overcome the limitation, we suggest a concept of feature space decomposition. In addition, for fair measure between numerical and categorical feature, we use Heterogeneous Euclideanoverlap Metric (HEOM). Finally, we conduct and show experimental results to compare our proposed method with several benchmarking methods and select the appropriate features through the forward selection algorithm.
표본코호트기반 고지혈증 약제의 저밀도 콜레스테롤 감소량 및 투약순응도 분석
김규진,전치혁,이혜선,김헌성,Kim, Kyu-Jin,Jun, Chi-Hyuck,Lee, Hyeseon,Kim, Hun-Sung 한국데이터정보과학회 2017 한국데이터정보과학회지 Vol.28 No.5
Hyperlipidemia, the status of blood with high level of low-density lipoprotein cholesterol (LDL-C), is known as a main cause of coronary artery diseases such as myocardiac infarction or brain infarct. Statin is the representative prescription to hyperlipidemia and the effects of it depend on the patient's individual conditions such as health-caring habits or adherence to medication. The main effect of statin is reducing LDL-C, which should reach the target range based on National Cholesterol Education Program-Adult Treatment Panel III (NCEP-ATP III) guideline. In this research, the reduction of LDL-C and attainment to patient's target range are considered effects of statin. The association between factors - individual conditions and adherence to medication of patients - and the effects of statin is analyzed with National Health Insurance Service-National Sample Cohort (NHIS-NSC). 고지혈증은 혈액 중에 지방 성분이 필요이상으로 많은 상태를 의미하며, 특히 저밀도 콜레스테롤이 혈관벽에 달라붙어 심근경색증, 뇌경색 등의 다양한 심혈관계의 질병을 발생시킬 수 있다. 스타틴은 대표적인 고지혈증 처방제로서 처방 받는 환자의 개별적인 특성 및 건강관리형태, 투약순응도 등에 따라 그 효과가 달라진다. 스타틴의 주요 효과는 저밀도 콜레스테롤 수치를 낮추는 것인데, 이는 National cholesterol education program-adult treatment panel (NCEP-ATP III) 가이드라인에서 환자의 조건에 따라 정한 목표 수치에 도달해야 한다. 본 연구에서는 저밀도 콜레스테롤 수치의 감소량과 환자 별 목표 수치 도달여부를 각각 스타틴의 효과로 상정하고, 국민건강보험공단에서 구축한 표본코호트 DB를 이용하여 건강검진기록의 개별특성 (나이, 성별, 흡연, 운동 및 혈액검사결과)과 처방전 기록으로부터 투약순응도를 통합해서 저밀도 콜레스테롤 감소량 및 목표도달률에 미치는 영향을 분석하고자 한다.
Feature selection based on rough set theory using feature space decomposition for mixed-type data
Kyung-Jun Kim(김경준),Chi-Hyuck Jun(전치혁) 대한산업공학회 2016 대한산업공학회 춘계학술대회논문집 Vol.2016 No.4
Feature selection plays an important role in classification problems dealing with mixed-type data. The main idea of feature selection is to reduce the dimensionality of the input space while preserving the classification accuracy by selecting the most important input features. The rough set theory can be an appropriate way of measuring the importance of features in a classification problem, as seen in recent studies. Previous papers related to feature selection based on the rough set theory also considered property of mixed-type data, however, they failed to investigate the properties of numerical and categorical features. To overcome the limitation, we suggest a concept of feature space decomposition. In addition, for fair measure between numerical and categorical feature, we use Heterogeneous Euclideanoverlap Metric (HEOM). Finally, we conduct and show experimental results to compare our proposed method with several benchmarking methods and select the appropriate features through the forward selection algorithm.
혼합모델 및 다중 가설 검정을 이용한 신호와 잡음의 분류
박해상,유시원,전치혁,Park, Hae-Sang,Yoo, Si-Won,Jun, Chi-Hyuck 한국통계학회 2009 응용통계연구 Vol.22 No.4
본 논문은 신호와 잡음이 혼합된 관측치로부터 신호 관측치를 분류하는 문제를 다룬다. 잡음은 가우시안 분포를 따르고 신호는 감마 분포를 따른다고 가정할 때 관측치의 분포는 가우시안과 감마의 혼합 분포를 따르게 된다. EM 알고리즘을 통해 혼합 모델의 모수를 추정하고 신호 및 잡음을 분류하는 것을 다중 가설 검정으로 간주하여 베이즈 오류를 바탕으로 분류를 위한 경계치를 설정한다. 제안하는 방법을 분광 데이터에 근거하여 철강 제품에서 개재물 유무를 검출하는 문제에 적용하였고 별도의 시뮬레이션 데이터를 통해 성능의 우수성을 보였다. A problem of separating signals from noises is considered, when they are randomly mixed in the observation. It is assumed that the noise follows a Gaussian distribution and the signal follows a Gamma distribution, thus the underlying distribution of an observation will be a mixture of Gaussian and Gamma distributions. The parameters of the mixture model will be estimated from the EM algorithm. Then the signals and noises will be classified by a fixed threshold approach based on multiple testing using positive false discovery rate and Bayes error. The proposed method is applied to a real optical emission spectroscopy data for the quantitative analysis of inclusions. A simulation is carried out to compare the performance with the existing method using 3 sigma rule.
부분최소자승법과 변수선택을 이용한 코팅두께 예측모델 개발
이혜선,이영록,전치혁,홍재화,Lee, Hye-Seon,Lee, Young-Rok,Jun, Chi-Hyuck,Hong, Jae-Hwa 한국통계학회 2010 응용통계연구 Vol.23 No.2
산업체 공정과정에서 타겟품질변수의 실시간 예측과 관리는 품질제고, 수익율 향상에 중요한 관건이 된다. 본 연구는 내지문강판의 코팅두께를 비파괴적이고 신속한 방법으로 예측하여 균일한 품질의 강판을 생산하기 위해 UV스펙트럼데이터를 이용한 최적예측모델을 개발하고자 한다. 부분최소자승법에서 변수중요도척도를 이용한 변수선택방법은 노이즈성 영역의 독립변수를 줄임으로써 예측정확도는 높일 수 있으며, 스펙트럼데이터의 경우 원데이터보다 적절한 데이터전처리가 예측정확도를 높이는 정보를 제공하기도 한다. 본 연구에서는 부분최소자승법 예측모텔에서 변수선택방법과 데이터전처리효과가 내지문강판 코팅두께 예측정확도 향상에 기여하는 결과를 제공하고, 스펙트럼 데이터를 이용한 품질변수 예측모델 개발 시 적용할 수 있는 일반적인 변수선택방법과정을 제안한다. Coating thickness is one of target variables in quality control process in steel industry. To predict coating thickness and to control quality of anti-fingerprint steel coils, ultraviolet-visible spectra are measured. We propose a variable-interval selection procedure based on the variable importance in projection in partial least square model. Using the proposed variable interval selection method, prediction performance gets better in the reduced model than the full model with full spectra absorbance. It is also shown that the first differencing as a data preprocessing technique does work well for the prediction of coating thickness.