RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      불균형 자료의 분류분석에서 샘플링 기법을 이용한 로지스틱 회귀분석 = Logistic Regression with Sampling Techniques for the Classification of Imbalanced Data

      한글로보기

      https://www.riss.kr/link?id=A101601452

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      The logisitic regression is widely used in binary data classification areas with its flexibility and a high level of classification accuracy. However, when analyzing imbalanced data with different class sizes, the classification accuracy in minority c...

      The logisitic regression is widely used in binary data classification areas with its flexibility and a high level of classification accuracy. However, when analyzing imbalanced data with different class sizes, the classification accuracy in minority class (sensitivity) may drop significantly because logistic regression classifiers is biased toward the majority class so that it classifies almost all observations to majority class. Therefore, we study logistic regression with various sampling technique to increase classification accuracy in minority class. Furthermore, we study lasso logistic regression in analyzing an imbalanced data not only to increase classification accuracy, but also to select important explanatory variables. In this study, we demonstrate the effectiveness of the proposed methods through simulation studies and a real data analysis in terms of classification accuracy and model selection.

      더보기

      국문 초록 (Abstract)

      로지스틱 회귀분석(logistic regression)은 이항 범주형 자료의 분류분석에서 높은 분류정확도와 유연성을 바탕으로 다양한 분야에서 널리 활용되고 있다. 그러나 소수집단과 다수집단의 개체수...

      로지스틱 회귀분석(logistic regression)은 이항 범주형 자료의 분류분석에서 높은 분류정확도와 유연성을 바탕으로 다양한 분야에서 널리 활용되고 있다. 그러나 소수집단과 다수집단의 개체수가 현저하게 차이나는 불균형 자료(imbalanced data)의 분류분석에서 로지스틱 회귀분석은 다수집단에 편향된 분류함수를 추정하여 대부분의 자료를 다수집단으로 분류함으로써 소수집단의 분류 정확도가 현저히 감소하게 되는 제한사항이 있다. 따라서 로지스틱 회귀분석을 이용한 불균형 자료의 분류분석에서 소수집단의 분류 정확도를 높이기 위하여 본 논문에서는 다양한 샘플링 기법을 이용한 로지스틱 회귀분석 방법론에 대하여 연구하였다. 또한 설명변수(explanatory variable)가 고차원인 불균형 자료의 분류분석에서 잡음변수(noise variables)를 제거하고 중요한 설명변수들을 모형에 선택하기 위하여 라소 로지스틱 회귀분석(lasso logistic regression)에 샘플링 기법을 적용한 방법론에 대해서도 연구하였다. 본 논문에서는 모의실험과 실제자료의 분석을 통하여 분류정확도와 모형의 간결성 측면에서 제안한 방법론의 우수한 성능과 유용성을 확인하였다.

      더보기

      참고문헌 (Reference)

      1 정현승, "불균형 데이터에 대한 오버샘플링 효과 연구" 한국자료분석학회 10 (10): 2089-2098, 2008

      2 김유정, "로지스틱 회귀분석모형을 이용한 인터넷 서비스 이용의 사회경제적 특성" 한국자료분석학회 12 (12): 2685-2701, 2010

      3 최국렬, "로지스틱 모형을 이용한 정시합격자들의 이탈 특성 분석" 한국자료분석학회 4 (4): 91-102, 2002

      4 이희재, "데이터 전처리와 앙상블 기법을 통한 불균형데이터의 분류모형 비교 연구" 한국통계학회 27 (27): 357-371, 2014

      5 김병수, "구매예측을 위한 로지스틱회귀모형과 MBR 모형 비교" 한국자료분석학회 14 (14): 1301-1314, 2012

      6 김지현, "계급불균형자료의 분류: 훈련표본 구성방법에 따른 효과" 한국통계학회 17 (17): 445-457, 2004

      7 Breheny, P., "grpreg: Regularization paths for regression models with grouped covariates, R package version 2.8-1"

      8 Bang, S., "Weighted support vector machine using k-means clustering" 43 : 2307-2324, 2014

      9 Lichman, M., "UCI machine learning repository"

      10 Cox, D. R., "The regression analysis of binary sequences" 20 : 215-242, 1958

      1 정현승, "불균형 데이터에 대한 오버샘플링 효과 연구" 한국자료분석학회 10 (10): 2089-2098, 2008

      2 김유정, "로지스틱 회귀분석모형을 이용한 인터넷 서비스 이용의 사회경제적 특성" 한국자료분석학회 12 (12): 2685-2701, 2010

      3 최국렬, "로지스틱 모형을 이용한 정시합격자들의 이탈 특성 분석" 한국자료분석학회 4 (4): 91-102, 2002

      4 이희재, "데이터 전처리와 앙상블 기법을 통한 불균형데이터의 분류모형 비교 연구" 한국통계학회 27 (27): 357-371, 2014

      5 김병수, "구매예측을 위한 로지스틱회귀모형과 MBR 모형 비교" 한국자료분석학회 14 (14): 1301-1314, 2012

      6 김지현, "계급불균형자료의 분류: 훈련표본 구성방법에 따른 효과" 한국통계학회 17 (17): 445-457, 2004

      7 Breheny, P., "grpreg: Regularization paths for regression models with grouped covariates, R package version 2.8-1"

      8 Bang, S., "Weighted support vector machine using k-means clustering" 43 : 2307-2324, 2014

      9 Lichman, M., "UCI machine learning repository"

      10 Cox, D. R., "The regression analysis of binary sequences" 20 : 215-242, 1958

      11 Meier, L., "The group lasso for logistic regression" 70 : 53-71, 2008

      12 Theodossiou, I., "The effects of low-pay and unemployment on psychological well-being: a logistic regression approach" 17 (17): 85-104, 1998

      13 Japkowicz, N., "The class imbalance problem; significance and strategies" 1 : 111-117, 2000

      14 Garcia, V., "The class imbalance problem in pattern classification and learning" 283-291, 2007

      15 Oommen, T., "Sampling bias and class imbalance in maximum-likelihood logistic regression" 43 (43): 99-120, 2011

      16 Chawla, N., "SMOTE : Synthetic minority over-sampling technique" 16 : 321-357, 2002

      17 Tibshirani, R., "Regression shrinkage and selection via the lasso" 267-288, 1996

      18 R Core Team, "R: A language and environment for statistical computing"

      19 Bagley, S. C., "Logistic regression in the medical literature : : Standards for use and reporting, with particular attention to one medical domain" 54 (54): 979-985, 2001

      20 King, G., "Logistic regression in rare events data" 9 (9): 137-163, 2001

      21 Owen, A. B., "Infinitely imbalanced logistic regression" 8 : 761-773, 2007

      22 Wu, T. T., "Genome-wide association analysis by lasso penalized logistic regression" 25 : 714-721, 2009

      23 Lee, S., "Efficient L1 regularized logistic regression" 21 (21): 401-, 2006

      24 Moro, S., "Data-driven approach to predict the success of bank telemarketing" 62 : 22-31, 2014

      25 Zhang, Y. P., "Cluster-based majority under-sampling approaches for class imbalance learning" 400-404, 2010

      26 Zhu, J., "Classification of gene microarrays by penalized logistic regression" 5 (5): 427-443, 2004

      27 Drummond, C., "C4.5, class imbalance, and cost sensitivity: Why under-sampling beats over-sampling" 3 : 2003

      28 Chawla, N., "C4.5 and imbalanced datasets : Investigating the effect of sampling method, probabilistic estimate, and decision tree structure" 3-, 2003

      29 Ganganwar, V., "An overview of classification algorithms for imbalanced datasets" 2 : 42-47, 2012

      30 Kubat, M., "Addressing the curse of imbalanced training sets: one-sided selection" 179-186, 1997

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2026 평가예정 재인증평가 신청대상 (재인증)
      2020-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2017-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2013-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2010-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2005-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2004-01-01 평가 등재후보 1차 PASS (등재후보1차) KCI등재후보
      2002-07-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 1.26 1.26 1.15
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      1.05 0.98 0.956 0.4
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼