이진 분류는 통계 및 데이터과학 분야에서 중요하게 다루어지는 주제로 주어진 입력 변수를 기반으로 결과 변수를 두 클래스 중 하나로 분류하는 문제이다. 대부분의 분류 알고리즘(e.x. 로...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17402304
부산 : 국립부경대학교 대학원, 2026
학위논문(석사) -- 국립부경대학교 대학원 , 통계학과 , 2026. 2
2026
한국어
부산
32 ; 26 cm
지도교수: 김형우
I804:21031-200000967143
0
상세조회0
다운로드이진 분류는 통계 및 데이터과학 분야에서 중요하게 다루어지는 주제로 주어진 입력 변수를 기반으로 결과 변수를 두 클래스 중 하나로 분류하는 문제이다. 대부분의 분류 알고리즘(e.x. 로...
이진 분류는 통계 및 데이터과학 분야에서 중요하게 다루어지는 주제로 주어진 입력 변수를 기반으로
결과 변수를 두 클래스 중 하나로 분류하는 문제이다. 대부분의 분류 알고리즘(e.x. 로지스틱 회귀분
석, 서포트 벡터 머신, 의사결정나무 등)은 정확도(accuracy)를 최대화하기 위해 개발되었는데 이러한
방법들은 데이터 클래스의 분포가 균일하지 않은 불균형 데이터에서는 소수 클래스를 분류하지 못할
확률이 높아져 적절하지 않을 수 있다. 또한, 노이즈가 상당수 포함되는 고차원 불균형 데이터에서는
그 문제가 더욱 심각해진다. 본 연구에서는 불균형한 클래스 분포를 가진 고차원 데이터에서 우수한
성능을 보이는 모형을 탐색하였다. 이를 위해, 먼저 다양한 샘플링 기법(무작위 복제, SMOTE, ENN
등)을 통해 불균형 문제를 완화하고, 이후 변수 선택을 수행하는 벌점화(Lasso, SCAD 등) 방법을 적
용하여 불균형 데이터 환경에서 최적의 예측 성능과 변수 선택 성능을 보이는 모형을 탐색하였다.