http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
KMSVDD: K-means Clustering을 이용한 Support Vector Data Description
김표재(Pyo Jae Kim),장형진(Hyung Jin Chang),송동성(Dong Sung Song),최진영(Jin Young Choi) 대한전기학회 2006 정보 및 제어 심포지엄 논문집 Vol.2006 No.1
기존의 Support Vector Data Description (SVDD) 방법은 학습 데이터의 개수가 증가함에 따라 학습 시간이 지수 함수적으로 증가하므로, 대량의 데이터를 학습하는 데에는 한계가 있었다. 본 논문에서는 학습 속도를 빠르게 하기 위해 K-means clustering 알고리즘을 이용하는 SVDD 알고리즘을 제안하고자 한다. 제안된 알고리즘은 기존의 decomposition 방법과 유사하게 K-means clustering 알고리즘을 이용하여 학습 데이터 영역을 sub-grouping한 후 각각의 sub-group들을 개별적으로 학습함으로써 계산량 감소 효과를 얻는다. 이러한 sub-grouping 과정은 hypersphere를 이용하여 학습 데이터를 둘러싸는 SVDD의 학습 특성을 훼손시키지 않으면서 중심점으로 모여진 작은 영역의 학습 데이터를 학습하도록 함으로써, 기존의 SVDD와 비교하여 학습 정확도의 차이 없이 빠른 학습을 가능하게 한다. 다양한 데이터들을 이용한 모의실험을 통하여 그 효과를 검증하도록 한다.
변형된 Category Utility를 이용한 점진 개념학습
김표재(Pyo Jae Kim),최진영(Jin Young Choi) 한국지능시스템학회 2005 한국지능시스템학회 학술발표 논문집 Vol.15 No.1
점진적 개념 학습 알고리즘인 COBWEB은 클래스 정보가 주어지지 않은 사례들(instances)을 분류하기 위하여 사례의 속성과 값에 근거하여 학습하며 각 노드가 유사한 사례들의 집합인 클래스에 해당하는 분류 트리를 생성하는 알고리즘이다. 유사한 사례들을 같은 클래스로 분류하기 위한 기준으로 category utility가 사용되며 이는 클래스 내부의 유사도와 클래스 간의 차이점을 최대화 하는 방향으로 클래스를 분류한다. 기존의 COBWEB에 사용되는 category utility는 클래스 사이즈와 예측 정확성 사이의 tradeoff 관계로 볼 수 있으며, 이로 인하여 예측 정확성은 약간 감소하나 클래스 사이즈가 커지는 방향으로 학습이 진행 될 수 있는 편향성(bias)를 가지고 있다. 이는 분류 트리에 불필요한 클래스 노드들(spurious nodes)을 생성하게 하여 학습 결과인 클래스 개념을 이해하는데 어렵게 한다. 본 논문에서는 클래스와 그에 속하는 사례들의 속성-값 분포를 고려하여 클래스와 속성의 연관성에 비례한 가충치를 더한 변형된 category utility를 제안하고, dataset에 대한 실험을 통하여 제안된 category utility가 기존의 큰 클래스 사이즈를 선호하는 bias를 완화 시킴을 보이고자한다.
Negative data를 고려한 K-means Support Vector Data Description
송동성(Dong Sung Song),김표재(Pyo Jae Kim),장형진(Hyung Jin Chang),최진영(Jin Young Choi) 대한전기학회 2007 대한전기학회 학술대회 논문집 Vol.2007 No.4
SVDD는 one-class 분류기법이지만, 다중 클래스 분류에도 적용될 수 있다. 이 때 타 클래스의 data가 고려 대상 클래스의 학습된 경계안에 들이오지 않도록 하기 위하여 negative data를 고려한 SVDD방법이 사용되어 왔다. 그러나 이 방법은, 고려해야 하는 데이터 수가 늘어남에 따라 학습에 소요되는 시간이 증가하게 되는 문제점을 가지고 있다. 본 논문에서는 negative data를 고려한 학습 시, SVDD대신 KMSVDD를 사용하고 negative data일 가능성이 없는 영역에 놓인 데이터를 제외하는 기법을 사용함으로써 학습시간의 증가를 완화하는 방법을 제안하고자 한다. 이를 통해서 대상 클래스에 속하지 않은 모든 data를 negative data로 고려하여 학습을 진행할 때 보다 빠른 시간에 유사한 결과를 얻을 수 있다. 몇 가지 모의실험을 통하여 그 효과를 검증하도록 한다.
평균 이동 알고리즘을 이용한 지지 벡터 영역 표현 학습시간 단축 방법
장형진(Hyung jin Chang),김표재(Pyo Jae Kim),최정환(Jung Hwan Choi),최진영(Jin Young Choi) 대한전자공학회 2007 대한전자공학회 학술대회 Vol.2007 No.7
Quadratic programming solver of Support Vector Data Description (SVDD) has a runtime complexity of O(N³). So SVDD has a limitation of dealing with a large data set. To handle this scale problem, we propose SVDD using Mean Shift clustering method, which is finding the modes of data distribution first and then clustering the data based on the modes. This algorithm’s computational time reduction performance is outstanding, and we can get the same results which are containing the characteristic of data distribution regardless of how many times we carried out the experiments. Also Mean Shift window bandwidth has some margin in deciding.
장형진(Hyung Jin Chang),김표재(Pyo Jae Kim),최정환(Jung Hwan Choi),최진영(Jin Young Choi) 대한전기학회 2007 대한전기학회 학술대회 논문집 Vol.2007 No.4
SVDD의 scale problem을 해결하기 위하여, 학습 데이터를 sub-grouping하여 group 단위로 SVDD를 통해 학습함으로서 학습 시간을 줄이는, K-means clustering을 이용한 SVDD 방법(KMSVDD)이 제안되었다. 하지만 KMSVDD는 K means clustering 알고리즘의 본질상 최적의 K값을 정하기 힘들다는 문제와, 동일한 데이터를 학습할지라도 clustered group이 랜덤하게 형성되기 때문에 매번 학습의 결과가 달라지는 문제점이 있었다. 또한 데이터의 분포 상태와 관계없이 무조건 타원(elliptic) 형태의 K개의 cluster로 나누기 때문에 각각의 나눠진 cluster들은 데이터 분포에 대한 특징을 나타내기 힘들게 된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 데이터 분포에서 mode를 먼저 찾은 후 이 mode를 기준으로 clustering하는 Mean Shift clustering 방법을 이용한 SVDD를 제안하고자 한다. 제안된 알고리즘은 KMSVDD와 비교해 데이터 학습 속도에서는 큰 차이가 없으면서도 데이터의 분포 상태를 고려한 형태로 clustering한 sub-group을 학습하므로 학습의 정확도가 일정하게 되며, 각각의 cluster는 데이터 분포의 특징을 포함하는 효과가 있다. 또한 Mean Shift Kernel의 bandwidth의 결정은 K-Means의 K와는 달리 어느 정도 여유를 갖고 결정되어도 학습 결과에는 차이가 없다. 다양한 데이터들을 이용한 모의실험을 통하여 위의 내용들을 검증하도록 한다.