http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
왜곡 제거 시계열 서브시퀀스 매칭에서 빠른 인덱스 구성법
길명선(Myeong-Seon Gil),김범수(Bum-Soo Kim),문양세(Yang-Sae Moon),김진호(Jinho Kim) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1A
본 논문에서는 기존 단일 인덱스 기반의 왜곡 제거 시계열 서브시퀀스 매칭의 인덱스 구성 알고리즘을 분석하여 보다 효율적인 인덱스 구성 알고리즘을 제안하였다. 기존 왜곡 제거 시계열 서브시퀀스 매칭의 단일 인덱스 구성 알고리즘은 대용량 시계열 데이터인 경우 왜곡 제거를 고려해야 되는 많은 윈도우로 인해 실제 인덱스 생성에 매우 많은 시간이 걸린다. 본 논문에서는 기존 선형 제거 서브시퀀스 매칭의 인덱스 구성 알고리즘을 예로서 인덱스를 구성하는 각 과정을 체계적으로 분석하여, 각 과정에서 필요한 연산 횟수를 줄이는 방법을 제안한다. 이를 위해, 저차원 변환하는 과정에서 발생하는 중복되는 연산들을 한 번씩 미리 수행하여 배열에 저장한 후 재사용하는 DF-버킷(DF-bucket)의 개념을 제시한다. 실험 결과, 저장 후 재사용 원칙에 따라 인덱스 구성의 효율성을 증대시킨 접근법이 그렇지 않은 접근법에 비해서 인덱스 구성 시간을 평균 32%에서 55%까지 줄인 것으로 나타났다.
왜곡 제거 시계열 서브시퀀스 매칭에서 빠른 인덱스 구성법
길명선(Myeong-Seon Gil),김범수(Bum-Soo Kim),문양세(Yang-Sae Moon),김진호(Jinho Kim) 한국정보과학회 2011 정보과학회논문지 : 데이타베이스 Vol.38 No.6
본 논문에서는 왜곡 제거 시계열 서브시퀀스 매칭에서 인덱스를 효율적으로 구성하는 방법을 다룬다. 기존의 왜곡 제거 시계열 서브시퀀스 매칭에서는 인덱스 구축에 매우 많은 시간이 걸리는데, 이는 왜곡 제거의 모든 가능한 경우를 고려하기 위해 너무 많은 윈도우가 생성되기 때문이다. 실제로 길이 30 만의 시계열인 경우에도 인덱스 구축을 위해 약 100분의 많은 시간이 걸려, 대용량 시계열 데이터에 대해서는 인덱스 구축이 매우 어려운 단점이 있다. 본 논문에서는 기존 인덱스 구축 과정을 단계별로 정형적으로 분석한 후, 각 단계별 성능 극대화 방법을 제안한다. 특히, 동적 프로그래밍 기법을 이용하여 PAA- 버킷 및 DF-버킷(distortion-free bucket)의 개념을 제안하는데, 이는 반복되는 계산 결과를 저장-후-재 사용(store-and-reuse)하는 기법으로, 이를 사용하여 기존 방법에 비해 효율적인 인덱스 구축이 가능하다. 본 논문에서는 복잡도 분석 및 실험 평가를 통해 제안한 방법의 우수성을 입증한다. In this paper we present an efficient approach of constructing a multidimensional index in distortion-free time-series subsequence matching. Index construction of previous distortion-free subsequence matching algorithms is a very time-consuming process since it generates a huge number of windows to consider all possible positions and all possible query lengths. According to the real experiment, the index construction time reaches approximately 100 minutes for a time-series of length 300K, and this means that the index construction itself is very difficult for very large time-series databases. To solve this problem, in this paper we first thoroughly analyze the index construction steps, then discuss how to improve the performance of each step, and finally propose two advanced algorithms of efficiently constructing an index. In particular, by exploiting dynamic programming techniques, we present the concepts of PAA-bucket and DF(distortion-free)-bucket, which store-and-reuse the intermediate results repeatedly computed. Through the store-and-reuse technique, the proposed algorithms construct a multidimensional index very faster than the previous algorithm. Through analytical and empirical evaluations, we showcased the superiority of the proposed algorithms.
시계열 데이터베이스에서 선형 추세 제거 서브시퀀스 매칭
길명선(Myeong-Seon Gil),김범수(Bum-Soo Kim),문양세(Yang-Sae Moon),김진호(Jinho Kim) 한국정보과학회 2010 정보과학회 컴퓨팅의 실제 논문지 Vol.16 No.5
본 논문에서는 선형 추세 제거 서브시퀀스 매칭을 정의하고, 이를 효율적으로 수행하기 위한 인덱스 기반 해결책을 제안한다. 이를 위해, 먼저 윈도우 자체의 선형 추세가 아닌 해당 윈도우를 포함하는 서브시퀀스의 선형 추세를 제거하여 얻은 새로운 윈도우인 LD-윈도우 개념을 제시한다. 다음으로, LD-윈도우를 이용하여 제안하는 인덱스 기반 해결책의 이론적 근거인 하한 조건을 제시하고, 이를 정형적으로 증명한다. 이러한 하한 조건에 기반하여, 본 논문에서는 또한 인덱스 구성 및 서브시퀀스 매칭 알고리즘을 각각 제안한다. 마지막으로, 실험을 통해 제안하는 인덱스 기반 해결책의 우수성을 입증한다. In this paper we formally define the linear detrending subsequence matching and propose its efficient index-based solution. To this end, we first present the notion of LD-windows. We eliminate the linear trend from a subsequence rather than each window itself and obtain LD-windows by dividing the subsequence into windows. Using the LD-windows we present a lower bounding theorem of the index-based solution and formally prove its correctness. Based on this lower bounding theorem, we then propose the index building and subsequence matching algorithms, respectively. Finally, we show the superiority of our indexbased solution through experiments.
하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법
손시운(Siwoon Son),길명선(Myeong-Seon Gil),문양세(Yang-Sae Moon) 한국정보과학회 2017 정보과학회 컴퓨팅의 실제 논문지 Vol.23 No.2
최근 대용량 데이터 분석을 위해 다수의 서버를 사용하는 시스템이 증가하고 있다. 대표적인 빅데이터 기술인 하둡은 대용량 데이터를 다수의 서버로 구성된 분산 환경에 저장하여 처리한다. 이러한 분산 시스템에서는 각 서버의 시스템 자원 관리가 매우 중요하다. 본 논문은 다수의 서버에서 수집된 로그 데이터를 토대로 간단하면서 효율적인 이상 탐지 기법을 사용하여 로그 데이터의 변화가 급증하는 이상치를 탐지하고자 한다. 이를 위해, 각 서버로부터 로그 데이터를 수집하여 하둡 에코시스템에 저장할 수 있도록 Apache Hive의 저장 구조를 설계하고, 이동 평균 및 3-시그마를 사용한 세 가지 이상 탐지 기법을 설계한다. 마지막으로 실험을 통해 세 가지 기법이 모두 올바로 이상 구간을 탐지하며, 또한 가중치가 적용된 이상 탐지 기법이 중복을 제거한 더 정확한 탐지 기법임을 확인한다. 본 논문은 하둡 에코시스템을 사용하여 간단한 방법으로 로그 데이터의 이상을 탐지하는 우수한 결과라 사료된다. In recent years, the number of systems for the analysis of large volumes of data is increasing. Hadoop, a representative big data system, stores and processes the large data in the distributed environment of multiple servers, where system-resource management is very important. The authors attempted to detect anomalies from the rapid changing of the log data that are collected from the multiple servers using simple but efficient anomaly-detection techniques. Accordingly, an Apache Hive storage architecture was designed to store the log data that were collected from the multiple servers in the Hadoop ecosystem. Also, three anomaly-detection techniques were designed based on the moving-average and 3-sigma concepts. It was finally confirmed that all three of the techniques detected the abnormal intervals correctly, while the weighted anomaly-detection technique is more precise than the basic techniques. These results show an excellent approach for the detection of log-data anomalies with the use of simple techniques in the Hadoop ecosystem.