RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로

        천세학 한국지능정보시스템학회 2019 지능정보연구 Vol.25 No.3

        Statistical methods such as moving averages, Kalman filtering, exponential smoothing, regression analysis, and ARIMA (autoregressive integrated moving average) have been used for stock market predictions. However, these statistical methods have not produced superior performances. In recent years, machine learning techniques have been widely used in stock market predictions, including artificial neural network, SVM, and genetic algorithm. In particular, a case-based reasoning method, known as k-nearest neighbor is also widely used for stock price prediction. Case based reasoning retrieves several similar cases from previous cases when a new problem occurs, and combines the class labels of similar cases to create a classification for the new problem. However, case based reasoning has some problems. First, case based reasoning has a tendency to search for a fixed number of neighbors in the observation space and always selects the same number of neighbors rather than the best similar neighbors for the target case. So, case based reasoning may have to take into account more cases even when there are fewer cases applicable depending on the subject. Second, case based reasoning may select neighbors that are far away from the target case. Thus, case based reasoning does not guarantee an optimal pseudo-neighborhood for various target cases, and the predictability can be degraded due to a deviation from the desired similar neighbor. This paper examines how the size of learning data affects stock price predictability through k-nearest neighbor and compares the predictability of k-nearest neighbor with the random walk model according to the size of the learning data and the number of neighbors. In this study, Samsung electronics stock prices were predicted by dividing the learning dataset into two types. For the prediction of next day's closing price, we used four variables: opening value, daily high, daily low, and daily close. In the first experiment, data from January 1, 2000 to December 31, 2017 were used for the learning process. In the second experiment, data from January 1, 2015 to December 31, 2017 were used for the learning process. The test data is from January 1, 2018 to August 31, 2018 for both experiments. We compared the performance of k-NN with the random walk model using the two learning dataset. The mean absolute percentage error (MAPE) was 1.3497 for the random walk model and 1.3570 for the k-NN for the first experiment when the learning data was small. However, the mean absolute percentage error (MAPE) for the random walk model was 1.3497 and the k-NN was 1.2928 for the second experiment when the learning data was large. These results show that the prediction power when more learning data are used is higher than when less learning data are used. Also, this paper shows that k-NN generally produces a better predictive power than random walk model for larger learning datasets and does not when the learning dataset is relatively small. Future studies need to consider macroeconomic variables related to stock price forecasting including opening price, low price, high price, and closing price. Also, to produce better results, it is recommended that the k-nearest neighbor needs to find nearest neighbors using the second step filtering method considering fundamental economic variables as well as a sufficient amount of learning data. 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

      • KCI등재

        조건이 있는 k-최근접 객체 질의 처리 방법

        김준성,권혁윤,윤태섭,이재길 한국정보과학회 2016 데이타베이스 연구 Vol.32 No.2

        Recent applications of geographical information system(GIS) need queries with attribute conditions, keyword conditions, and spatial conditions(simply, DB-spatial-keyword queries). k-Nearest neighbor queries with attribute and keyword conditions are a kind of the DB-spatial-keyword queries whose spatial condition is a k-nearest neighbor condition. A k-nearest neighbor query finds top-k spatial objects nearest to a given query point that satisfy attribute and keyword conditions. Major commercial/open-source systems that support k-nearest neighbor queries with attribute and keyword conditions can not process those queries efficiently since they do not take advantage of spatial locality of the results. In this paper, we propose three methods for efficient processing of k-nearest neighbor queries with attribute and keyword conditions. We then compare the performance of the proposed methods by the extensive experiments and show the advantages and disadvantages of performance of the proposed methods while varying the parameters. The results are the basis of the optimization of k-nearest neighbor query processing. 최근 속성 조건, 키워드 조건 및 공간 조건을 모두 가지고 있는 질의(간단히, DB-공간-키워드 질의)를 필요로 하는 지리 정보 시스템 응용들이 나타나고 있다. 조건이 있는 k-최근접 객체 질의는 k-최근접 객체 질의라는 특수한 형태의 공간 조건이 있는 DB-공간-키워드 질의이며, 지리 공간상에서 질의점에 가장 가까우면서 주어진 속성 및 키워드 조건을 만족하는 k개의 공간 객체를 찾는다. 주요 상용/공개 소스 시스템에서는조건이 있는 k-최근접 객체 질의 처리를 처리할 때 공간적 지역성을 질의 처리에 활용하지 않아 이를 항상최적으로 처리할 수 없다. 본 논문에서는 조건이 있는 k-최근접 객체 질의를 처리하는 세 가지 방법을 제안하고 이들의 성능을 분석한다. 또한 광범위한 실험을 통해 제안한 세 가지 방법의 성능을 비교하고, 이를 통하여파라메터에 따라 세 가지 방법의 장·단점을 보임으로써 조건이 있는 k-최근접 객체 질의 최적화를 위한 근거를 제시한다.

      • KCI등재

        k 근접 이웃 그래프 기반 매니폴드 학습에서의 k 의 선택

        최현석(Hyunsoek Choi),박혜영(Hyeyoung Park) 한국정보과학회 2011 정보과학회논문지 : 소프트웨어 및 응용 Vol.38 No.9

        최근 고차원 데이터에 내재된 저차원 매니폴드 구조를 찾고 이를 패턴인식에 활용하는 다양한 연구가 수행되었다. 이 중 ISOMAP, LLE, LPP, GNMF 등의 방법은 k 근접 이웃 그래프(k-Nearest Neighbor Graph)를 기반으로 고차원 입력 데이터에서 저차원 매니폴더 구조를 효과적으로 찾을 수 있음을 보여주었다. k 근접 이웃 그래프를 이용한 매니폴드 구조 탐색 방법은 구성된 그래프에 따라 획득된 저차원 매니폴드 구조가 달라질 수 있으며, 따라서 적합한 k 의 값을 선택하는 것은 추후 패턴인식기의 성능에 직접적인 영향을 미친다. 본 연구에서는 k 근접 이웃 그래프에서 각 샘플이 k 번째 이웃과 가지는 거리의 변화를 관찰함으로써 데이터 별로 적합한 k 를 탐색하는 방법의 제안을 목적으로 한다. 특히 패턴인식 문제에 적합한 매니폴드 학습방법인 LPP를 중심으로 각 데이터에 대해 k 근접 이웃 그래프를 구성하고 이웃 간의 거리합에 기반하는 k 의 평가함수를 제안하였다. 또한 실제 패턴인식 응용 데이터를 이용한 분석 실험을 통해 제안하는 평가함수의 적절성을 확인하였다. Recently, there have been various studies on searching inherent low-dimensional manifold structure of high-dimensional data in order to utilize them for pattern recognition. ISOMAP, LLE, LPP, and GNMF, which are based on k-Nearest Neighbor Graph, have shown that they can find the inherent low-dimensional manifold structure. Since the discovered low-dimensional manifold structure depends on the k-Nearest Neighbor Graph, it is important to choose an optimal user parameter k for constructing k-Nearest Neighbor Graph. The purpose of this paper is to present an efficient method for searching an optimal user parameter k by observing the change of distance between each sample and its neighbor. Focusing especially on LPP method, which is appropriate for pattern recognition, we propose an evaluation function of k using the sum of distance among neighbor samples. Through computational experiments on several benchmark data sets, we confirm that the proposed measure can suggest a proper k for pattern recognition.

      • KCI등재

        영상 분할을 위한 퍼지 커널 K-nearest neighbor 알고리즘

        최병인(Byung-In Choi),이정훈(Chung-Hoon Rhee) 한국지능시스템학회 2005 한국지능시스템학회논문지 Vol.15 No.7

        커널 기법은 데이터를 high dimension 상의 속성 공간으로 mapping함으로써 복잡한 분포를 가지는 데이터에 대하여 기존의 선형 분류 알고리즘들의 성능을 향상시킬 수 있다[4]. 본 논문에서는 기존의 유클리디안 거리측정방법 대신에 커널 함수에 의한 속성 공간의 거리측정방법을 fuzzy K-nearest neighbor(fuzzy K-NN) 알고리즘에 적용한 fuzzy kernel K-nearest neighbor(fuzzy kernel K-NN) 알고리즘을 제안한다. 제시한 알고리즘은 데이터에 대한 적절한 커널 함수의 선택으로 기존 알고리즘의 성능을 향상 시킬 수 있다. 제시한 알고리즘의 타당성을 보이기 위하여 여러 데이터 집합에 대한 실험결과와 실제 영상의 분할 결과를 보일 것이다. Kernel methods have shown to improve the performance of conventional linear classification algorithms for complex distributed data sets, as mapping the data in input space into a higher dimensional feature space[7]. In this paper, we propose a fuzzy kernel K-nearest neighbor(fuzzy kernel K-NN) algorithm, which applies the distance measure in feature space based on kernel functions to the fuzzy K-nearest neighbor(fuzzy K-NN) algorithm. In doing so, the proposed algorithm can enhance the performance of the conventional algorithm, by choosing an appropriate kernel function. Results on several data sets and segmentation results for real images are given to show the validity of our proposed algorithm.

      • KCI등재

        도로 네트워크 데이타베이스에서 근사 색인을 이용한 k-최근접 질의 처리

        이상철(Sang-Chul Lee),김상욱(Sang-Wook Kim) 한국정보과학회 2008 정보과학회논문지 : 데이타베이스 Vol.35 No.5

        본 논문에서는 도로 네트워크 데이타베이스에서 정적 객체의 k-최근접 이웃 질의를 효율적으로 처리하기 위한 방안을 논의한다. 기존의 여러 기법들은 인덱스를 사용하지 못했는데, 이는 네트워크 거리가 순서화된 거리함수가 아니며 삼각 부등식(triangular inequality) 성질 또한 만족하지 못하기 때문이다. 이러한 기존 기법들은 질의 처리 시 심각한 성능 저하의 문제를 가진다. 선계산된 네트워크 거리를 이용하는 또 다른 기법은 저장 공간의 오버헤드가 크다는 문제를 갖는다. 본 논문에서는 이러한 두 가지 문제점들을 동시에 해결하기 위하여 객체들 간의 네트워크 거리를 근사하여 객체들에 대한 인덱스를 구축하고, 이를 이용하여 k-최근접 이웃 질의를 처리하는 새로운 기법을 제안한다. 이를 위하여 본 논문에서는 먼저 네트워크 공간 상의 객체를 유클리드 공간 상으로 사상하기 위한 체계적인 방법을 제시한다. 특히, 삼각 부등식 성질을 만족시키기 위하여 평균 네트워크 거리라는 새로운 거리 개념을 제시하고, 유클리드 공간으로의 사상을 위하여 FastMap 기법을 사용한다. 다음으로, 평균 네트워크 거리와 FastMap을 사용하여 네트워크 공간 상의 객체들로 인덱스를 구축하는 근사 색인 알고리즘을 제시한다. 또한, 구축한 인덱스를 사용하여 k-최근접 이웃 질의를 효과적으로 수행하는 알고리즘을 제안한다. 마지막으로, 실제 도로 네트워크를 이용한 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다. In this paper, we address an efficient processing scheme for k-nearest neighbor queries to retrieve k static objects in road network databases. Existing methods cannot expect a query processing speed-up by index structures in road network databases, since it is impossible to build an index by the network distance, which cannot meet the triangular inequality requirement, essential for index creation, but only possible in a totally ordered set. Thus, these previous methods suffer from a serious performance degradation in query processing. Another method using pre-computed network distances also suffers from a serious storage overhead to maintain a huge amount of pre-computed network distances. To solve these performance and storage problems at the same time, this paper proposes a novel approach that creates an index for moving objects by approximating their network distances and efficiently processes k-nearest neighbor queries by means of the approximate index. For this approach, we proposed a systematic way of mapping each moving object on a road network into the corresponding absolute position in the m-dimensional space. To meet the triangular inequality this paper proposes a new notion of average network distance, and uses FastMap to map moving objects to their corresponding points in the m-dimensional space. After then, we present an approximate indexing algorithm to build an R*-tree, a multidimensional index, on the m-dimensional points of moving objects. The proposed scheme presents a query processing algorithm capable of efficiently evaluating k-nearest neighbor queries by finding k-nearest points (i.e., k-nearest moving objects) from the m-dimensional index. Finally, a variety of extensive experiments verifies the performance enhancement of the proposed approach by performing especially for the real-life road network databases.

      • KCI등재

        K-Nearest Neighbors(K-NN) 알고리즘을 통한 KOSPI200 선물지수 예측효과 연구

        김명현(Myeong-Hyeon Kim),이세호(Seho Lee),신동훈(Dong-hoon Shin) 대한경영학회 2015 大韓經營學會誌 Vol.28 No.10

        본 논문에서 저자들은 머신러닝의 패턴분석기법 중 하나인 K-nearest neighbors(K-NN) 알고리즘을 KOSPI200 선물지수에 적용, 동 알고리즘을 이용한 기술적 분석의 예측력을 검증했다. 기술적 분석의 예측력 검증은 효율적 시장가설과 밀접한 연결고리가 있다. 효율적 시장가설에서 강형의 성립은 사적 내부정보(Private Information Set)를 이용해야만 시장에서 초과수익률 창출이 가능하다는 것으로써, 과거 가격 시계열의 움직임을 고려해서 투자하는 기술적 분석 혹은 차트 분석의 경우 현재 시장가격에 반영이 되어 있기 때문에 초과수익률 창출이 불가능하다는 것을 의미한다. K-NN 알고리즘은 머신 러닝의 대표적인 비모수 및 비선형 알고리즘으로 금융 시계열 데이터를 이용한 기술적 분석에 이 알고리즘을 선택한 이유는 다음과 같다. K-NN 알고리즘은 기계 학습의 방법 중 가장 간단한 방법으로 분류되며 모형 위험(Modeling Risk)을 최소화할 수 있다는 장점이 있다. 또한 정상성(Stationary)의 제약조건을 벗어나 비정상성의 동학을 갖는 가격 레벨에서 분석을 진행할 수 있기 때문에 실제 시장참여자들의 투자패턴을 그대로 적용하는데 용이한 점이 있다. 단변량 분석의 결과 K-NN의 두 가지 방법론 중 절대거리(Absolute) 방법론은 선물지수 하락기에 실현된 값보다 지속적으로 과대 예측하는 경향을 보였고, 반면 지수 횡보기에는 예측에 변동을 보이는 상관계수(Correlation) 방법론보다 안정적인 예측력을 보였다. 미결제약정과 프로그램 순매수 변화를 독립변수로 고려해 분석한 다 변량 분석의 결과 두 독립변수들의 추가적인 예측 기여도는 제한적인 것으로 나타났으며, 미결제약정 변수의 예측력 감소는 기존 논문의 결과와 배치되고 있어 추가 연구가 필요한 것으로 보인다. 또한 기존의 중요 기술적 지표들에 K-NN 알고리즘을 결합할 경우, 기술적 지표 자체를 이용한 투자전략보다 뛰어난 거래결과를 보임을 확인하였다. 본 논문은 약형 효율적 시장가설 관점에서 머신러닝 알고리즘을 적용해 기술적 분석의 유효성을 검증했다는 점에서 의미가 있다. 또한 K-NN 방법론의 KOSPI200 선물 적용은 본 논문에서 최초로 시도하는 것으로 국내 선물시장의 효율성 검증에 새로운 의미를 가져다줄 것으로 기대된다. In this paper, we apply K-nearest neighbors (K-NN) Algorithm being one of the pattern analysis techniques of machine learning to the KOSPI 200 futures index, and test the forecasting power of the technical analysis of the algorithm. The test of predictive accuracy for technical analysis has close links with the efficient market hypothesis. The strong form of the efficient market hypothesis implies that primitive information must be used to generate excess returns in the market. Therefore, a technical analysis or chart analysis of the investment taking into account the past price movement time series is impossible to generate the excess return because all informations for pricing are reflected in current market prices. As K-NN algorithm is the representative non-parametric and non-linear algorithm on machine learning, the reason to take this algorithm for the technical analysis of financial time-series data is following. First, K-NN algorithm is the simplest method among machine learning methods, so we minimize the modeling risk from the analysis of this algorithm. Second, it allows analyzing on price levels whose dynamics can be non-stationary. Hence, it is easy to apply the actual investment pattern of market participants. K-NN algorithms for analyzing the univariate time series can be separated by two sub category methods, an absolute distance method and the correlation method, depending on how to measure the neighborhood. As the reason, we compared the predictive powers of the two ways. As the result of the univariate analysis, the absolute method, as the one of two K-NN algorithm methods, tended to consistently over-predicted than the realized value on the downturn of the future index. While the index walked sideways, the absolute method showed more reliable predictive power than the correlation method showing volatile prediction. Since K-NN algorithm analyzing a univariate sime series predict with using only past data set, there is a disadvantage that no additional information set is available. Therefore, it is available to study the effectiveness of aditional analysis containing more than one information set which help to increase predictive power. Candidates of the independent variables were selected for the two variables closely associated with connecting KOSPI200. As the first independent variable, we considered open interest to see the effect of an increase of the net quantity to prices of futures and options in a new contract. As the second independent variable, we considered the program net buying because the derivative market is freakishly large comparing with the underlying market in Korea. As the results of the multivariate analysis considering open interest and net buying in program trading, the additional contributions of two variables for the forecasting was limited, and the reduction of the prediction power of the open interest is contrary to the results of the existing papers, so it seems to need further studies. Also, a combination of K-NN algorithm of the existing main technical indicators confirmed to show superior trading results than the investment strategies dealing with the main indicators. This paper is meaningful in that it verifies the validity of technical analysis to apply machine learning algorithms in terms of a weak-form of efficient market. In addition, as the first attempt in domestic market, the application of K-NN algorithm to the KOSPI 200 futures market is expected to bring new meaning to verify an efficiency of the domestic futures market. Recently, a number of studies of various subjects have coming out such as effects of algorithmic trading on recent markets, contentions against the efficient market hypothesis, and verifying the validity of such trading strategies. Adjusting this trend, this study applying machine learning method to KOSPI200 contributes to have led to new finding that the predictive power using the univariate time series is not worse than multivariate

      • SCISCIESCOPUS

        Group nearest-neighbor queries in the L<sub>1</sub> plane

        Son, W.,Bae, S.W.,Ahn, H.K. North-Holland Pub. Co ; Elsevier Science Ltd 2015 Theoretical computer science Vol.592 No.-

        <P>Let P be a set of n points in the plane. The k-nearest-neighbor (abbreviated as k-NN) query problem is to preprocess P into a data structure that quickly reports k closest points in P for a query point q. This paper addresses a generalization of the k-NN query problem to a query set Q of points, namely, the group k-nearest-neighbor query problem, in the L-1 plane. More precisely, a query is assigned with a set Q of at most m points and a positive integer k with k <= n, and the distance between a point p of P and a query set Q is defined as the sum of L-1 distances from p to all q is an element of Q. The maximum number m of query points Q is assumed to be known in advance and to be at most n. In this paper, we propose two algorithms, one based on the range tree and the other based on a data structure for segment dragging queries, and obtain the following complexity bounds: (1) a group k-NN query can be handled in O (T-min log n + (k + m(2))(log logn + logm)) time after preprocessing P using O(m(2)nlog(2)n) space, where T-min = min {k + m, m(2)}, or (2) a group k-NN query can be handled in O ((k + m)log(2) n + m(2)(log(is an element of) n + log m)) time after preprocessing P using O (m(2)n) space, where is an element of > 0 is an arbitrarily small constant. We also show that our approach can be applied to the weighted group k-nearest-neighbor query problem and the group k-farthest-neighbor query problem. (C) 2015 Elsevier B.V. All rights reserved.</P>

      • KCI등재

        무선방송환경에서 계층적 비트맵 기반 공간 색인을 이용한 k-최근접 질의처리

        송두희(Doo-Hee Song),박광진(Kwang-Jin Park) 한국컴퓨터정보학회 2012 韓國컴퓨터情報學會論文誌 Vol.17 No.1

        최근 무선방송 환경을 기반으로 하는 k-최근접(k-Nearest Neighbor) 질의처리가 활발히 연구되고 있다. 무선방송환경의 장점은 서버 내에 존재하는 불특정 다수에게 일괄적으로 질의처리를 할 수 있는 확장성을 가진다는 것이다. 그러나 기존의 k-NN 질의는 무선방송환경에 적용할 경우 탐색과정에서 백트래킹이 발생하여 질의처리시간이 증가하는 단점을 가진다. 본 논문은 무선방송환경에서 k-NN 질의를 효과적으로 처리하기 위하여 계층적 비트맵 기반 공간색인(Hierarchical Bitmap-based Spatial Index: HBI)을 제안한다. HBI는 비트맵 정보와 트리 구조를 이용하여 비트맵의 크기를 줄인다. 결과적으로 방송주기를 줄임으로써 클라이언트의 청취시간과 질의처리 시간을 줄일 수 있다. 또한 비트맵 정보를 활용하여 객체의 위치를 모두 파악할 수 있기 때문에 필요한 데이터를 선택적으로 청취할 수 있다. 본 논문에서는 HBI를 k-NN 질의에 적용하여 실험을 실시하고 성능평가에서 제안 기법이 우수함을 증명한다. Recently, k-nearest neighbors query methods based on wireless broadcasting environment are actively studied. The advantage of wireless broadcasting environment is the scalability that enables collective query processing for unspecified users connected to the server. However, in case existing k-NN query is applied in wireless broadcasting environment, there can be a disadvantage that backtracking may occur and consequently the query processing time is increasing. In this paper proposes a hierarchical bitmap-based spatial index in order to efficiently process the k-NN queries in wireless broadcasting environment. HBI reduces the bitmap size using such bitmap information and tree structure. As a result, reducing the broadcast cycle can reduce the client's tuning time and query processing time. In addition, since the locations of all the objects can be detected using bitmap information, it is possible to tune to necessary data selectively. For this paper, a test was conducted implementing HBI to k-NN query and the proposed technique was proved to be excellent by a performance evaluation.

      • KCI등재

        거리 정보 융합을 이용한 K-Nearest Neighbor 규칙

        이희성(Heesung Lee) 한국지능시스템학회 2018 한국지능시스템학회논문지 Vol.28 No.2

        K-Nearest Neighbor (KNN)는 분류할 테스트 데이터와 주어진 학습 데이터와의 거리를 계산하여 가까운 거리의 K개의 학습 데이터의 가장 높은 빈도수를 갖는 클래스를 테스트 데이터의 클래스로 결정하는 방법이다. KNN 분류기는 효율성과 우수한 성능으로 인해 다양한 분야에서 사용되고 있다. 하지만 선정된 K개의 학습 데이터들이 거리에 상관없이 같은 기여도를 갖는 문제점을 가지고 있다. 본 논문에서는 확률적 접근을 통해 이 문제를 해결한다. 우선 테스트 데이터와 학습 데이터의 거리 정보를 이용하여 각각의 확률을 생성한 후에 베이지안 접근방법을 이용하여 생성된 확률들을 누적하여 테스트 데이터의 클래스를 결정하는 시스템을 제안한다. 제안하는 알고리즘의 우수성을 보여주기 위하여 UCI repository에서 선택된 여러 데이터베이스들을 이용한 실험을 수행하였다. The K-nearest neighbor (KNN) is a method to determine the class of input pattern through distance between test data and training data. The KNN classifies a test pattern by assigning it the laebl of most frequent samples among K nearest samples. It has bnee widely used in several pattern recognition area because it is very sipmle and shows good perform. However, it has problem that the lseected K samples have the same contribution regardless of distance. In this paper, this problem is solved through a probabilistic approach. First, each probability is generated by using distance between test pattern and K nearest sample. Then identification probability is accumulated recursively in a Bayesian framework to classify the test pattern. To demonstrate the performance of the proposed method, we perform experiments on various databases selected i nUCI repository.

      • KCI우수등재

        K-근방 분류 알고리즘에 대한 비교 연구

        장용석,박범진,박창이 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.5

        K-nearest neighbor (K-NN) classifier has been adopted in various classifications such as image classification because the classification accuracy of K-NN is generally acceptable for its simplicity in the implementation of its algorithm. While the weighted K-NN algorithm based on the kernel smoothing technique in local regressions makes the resulting decision boundary smooth, the kernel K-NN algorithm using the kernel trick in kernel machines make the decision boundary more complex. In the kernel K-NN algorithm, we propose to adopt the geometry based criterion for the selection of the tuning parameter of the Gaussian kernel because selecting the tuning parameter via cross validations can be computationally burdensome. Through simulated and real data analysis, we compare the performances of K-NN algorithms. K-근방 분류는 알고리즘의 구현이 단순한데 비해 분류 정확도가 나쁘지 않기 때문에 이미지 등 여러 가지 분류문제에서 사용되고 있다. 가중 K-근방 알고리즘은 국소회귀의 커널 평활법에 기반하여 분류경계를 부드럽게 만드는 반면, 커널 K-근방 알고리즘에서는 커널기계의 커널 트릭을 이용하여 분류경계를 더 복잡하게 만든다. 커널 K-근방 알고리즘에서가우스 커널의 조율모수의 선택시 교차확인법을 통한 조율모수의 선택은 계산이 어려울 수 있으므로 기하기반의 기준을 사용하고자 한다. 또한 모의실험과 실제 데이터 분석을 통하여 K-근방 알고리즘들의 성능을 비교한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼