http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법
이주원,임효상,Lee, Juwon,Lim, Hyo-Sang 한국정보처리학회 2017 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.6 No.11
집합 유사 시퀀스 매칭 방법은 유사한 정도를 나타내는 척도로 교집합을 기반으로 한 유사도를 사용한다. 그러나 교집합 크기를 계산하는 과정에 시간이 오래 걸릴 뿐만 아니라, 유사한 시퀀스를 찾기 위해서 수많은 집합 간 교집합 크기를 구해야 하므로 수행 시간이 오래 걸리는 성능상의 문제가 있다. 본 논문에서는 이러한 성능상의 문제를 해결하기 위해 인덱스 기반의 검색 방법을 사용하여 집합 기반 유사 시퀀스 매칭을 빠르게 수행하는 방법을 제안한다. 제안하는 방법은 크게 두가지로 구분된다. 첫 번째로 집합 시퀀스 유사도 문제를 교집합의 크기 비교 문제로 정형적으로 변환하고, 교집합의 크기를 빠르게 찾을 수 있는 인덱스 구조를 제안한다. 두 번째로 제안한 인덱스 구조를 사용하여 집합 기반 유사 시퀀스 매칭을 효율적으로 수행할 수 있는 방법을 제안한다. 성능 평가 결과, 제안하는 방법이 기존 방법에 비해 최대 30배에서 50배의 수행 시간 단축이 있음을 보인다. 또한 데이터 시퀀스의 개수가 증가할수록 수행시간의 차이가 점점 커지므로, 대용량 데이터 처리에 적절함을 보인다. The set-based similar sequence matching method measures similarity not for an individual data item but for a set grouping multiple data items. In the method, the similarity of two sets is represented as the size of intersection between them. However, there is a critical performances issue for the method in twofold: 1) calculating intersection size is a time consuming process, and 2) the number of set pairs that should be calculated the intersection size is quite large. In this paper, we propose an index-based search method for improving performance of set-based similar sequence matching in order to solve these performance issues. Our method consists of two parts. In the first part, we convert the set similarity problem into the intersection size comparison problem, and then, provide an index structure that accelerates the intersection size calculation. Second, we propose an efficient set-based similar sequence matching method which exploits the proposed index structure. Through experiments, we show that the proposed method reduces the execution time by 30 to 50 times then the existing methods. We also show that the proposed method has scalability since the performance gap becomes larger as the number of data sequences increases.
이주원(Juwon Lee),김태환(Taehwan Kim),박정호(Jeongho Park),최창균(Changkyun Choi),남상우(Sangwoo Nam),박주영(Jooyoung Park) 한국통신학회 2021 한국통신학회 학술대회논문집 Vol.2021 No.2
최근 들어, 현재 학습 중인 제어 정책과 다른 정책의 실행을 통한 시스템 인터렉션 과정에서 수집된 상태전이 데이터에 의존하여 학습 중인 제어정책을 평가하는 Off-Policy 형태의 정책 평가(off-policy policy evaluation, OPE)는 심층 강화학습 분야의 중요한 이슈로 부상하고 있다. 장차 강화학습의 응용이, 각종 비디오 게임이나 OpenAI Gym과 같이 미리 이용할 수 있도록 준비되고 인터렉션에 의한 데이터 수집이 매우 값싸고 편리한 상황을 뛰어넘어서 의료진단, 자율주행 등의 현실적인 문제를 해결해야 하는 단계에 들어서게 되면, 실제 학습하고 있는 정책의 평가를 위해 시스템과의 인터랙션을 취함이 거의 불가능하거나 매우 값비싼 형편이 됨을 고려할 때, 수집된 데이터와 평가하고자 하는 제어 정책이 다를 때의 정책 평가는 중요하고 어려운 문제가 된다. 본 논문에서는 이러한 OPE 문제의 풀이를 위하여 제시된 기존의 방법론과 함께 콘벡스 쌍대성과 커널 로스를 이용한 풀이법을 탐구하고 간단한 문제를 대상으로 관찰한 시뮬레이션 결과를 제시한다. 관찰 결과는, 장차 관련 연구에서 콘벡스 쌍대성과 커널 로스가 상황에 따라 중요한 역할을 할 수 있음을 보여준다.