RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        Distributed Assumption-Based Truth Maintenance System for Scalable Reasoning

        Batselem Jagvaral(바트셀렘),Young-Tack Park(박영택) 한국정보과학회 2016 정보과학회논문지 Vol.43 No.10

        가정기반진리관리 시스템(ATMS)은 추론 시스템의 추론 과정을 저장하고 비단조추론을 지원할 수 있는 도구이다 또한 의존기반 backtracking을 지원하므로 매우 넓은 공간 탐색 문제를 해결 할 수 있는 강력한 도구이다. 모든 추론 과정을 기록하고, 특정한 컨텍스트에서 지능형시스템의 Belief를 매우 빠르게 확인하고 비단조 추론 문제에 대한 해결책을 효율적으로 제공할 수 있게 한다. 그러나 최근 데이터의 양이 방대해지면서 기존의 단일 머신을 사용하는 경우 문제 해결 프로그램의 대용량의 추론과정을 저장하는 것이 불가능하게 되었다. 대용량 데이터에 대한 문제 해결 과정을 기록하는 것은 많은 연산과 메모리 오버헤드를 야기한다. 이러한 단점을 극복하기 위해 본 논문에서는 Apache Spark 환경에서 functional 및 객체지향 방식 기반의 점진적 컨텍스트 추론을 유지할 수 있는 방법을 제안한다.. 이는 가정(Assumption)과 유도과정을 분산 환경에 저장하며, 실체화된 대용량 데이터셋의 변화를 효율적으로 수정가능하게 한다. 또한 ATMS의 Label, Environment를 분산 처리하여 대규모의 추론 과정을 효과적으로 관리할 수 있는 방안을 제시하고 있다. 제안하는 시스템의 성능을 측정하기 위해 5개의 노드로 구성된 클러스터에서 LUBM 데이터셋에 대한 OWL/RDFS 추론을 수행하고, 데이터의 추가, 설명, 제거에 대한 실험을 수행하였다. LUBM2000에 대하여 추론을 수행한 결과 80GB데이터가 추론되었고, ATMS에 적용하여 추가, 설명, 제거에 대하여 수초 내에 처리하는 성능을 보였다. Assumption-based truth maintenance system (ATMS) is a tool that maintains the reasoning process of inference engine. It also supports non-monotonic reasoning based on dependency-directed backtracking. Bookkeeping all the reasoning processes allows it to quickly check and retract beliefs and efficiently provide solutions for problems with large search space. However, the amount of data has been exponentially grown recently, making it impossible to use a single machine for solving large-scale problems. The maintaining process for solving such problems can lead to high computation cost due to large memory overhead. To overcome this drawback, this paper presents an approach towards incrementally maintaining the reasoning process of inference engine on cluster using Spark. It maintains data dependencies such as assumption, label, environment and justification on a cluster of machines in parallel and efficiently updates changes in a large amount of inferred datasets. We deployed the proposed ATMS on a cluster with 5 machines, conducted OWL/RDFS reasoning over University benchmark data (LUBM) and evaluated our system in terms of its performance and functionalities such as assertion, explanation and retraction. In our experiments, the proposed system performed the operations in a reasonably short period of time for over 80GB inferred LUBM2000 dataset.

      • KCI우수등재

        Scalable RDFS Reasoning using Logic Programming Approach in a Single Machine

        Batselem Jagvaral(바트셀렘 작바랄),Jemin Kim(김제민),Wan Gon Lee(이완곤),Young Tack Park(박영택) 한국정보과학회 2014 정보과학회논문지 Vol.41 No.10

        시맨틱 웹상에서 RDFS로 표현된 데이터의 사용 증가로 인하여, 대용량 데이터의 추론에 대한 많은 요구가 생겨나고 있다. 많은 연구자들은 대용량 온톨로지 추론을 수행하기 위해서 하둡과 같은 고가의 분산 프레임워크를 활용한다. 그러나, 적절한 사이즈의 RDFS 트리플 추론을 위해서는 굳이 고가의 분산 환경 시스템을 사용하지 않고 단일 머신에서도 논리적 프로그래밍을 이용하면 분산 환경과 유사한 추론 성능을 얻을 수 있다. 본 논문에서는 단일 머신에 논리적 프로그래밍 방식을 적용한 대용량 RDFS 추론 기법을 제안하였고 다중 머신을 기반으로 한 분산 환경 시스템과 비교하여 2억개 정도의 트리플에 대한 RDFS 추론 시스템을 적용한 경우 분산환경과 비슷한 성능을 보이는 것을 실험적으로 증명하였다. 효율적인 추론을 위해 온톨로지 모델을 세부적으로 분리한 메타데이터 구조와 대용량 트리플의 색인 방안을 제안하고 이를 위해서 전체 트리플을 하나의 모델로 로딩하는 것이 아니라 각각 온톨로지 추론 규칙에 따라 적절한 트리플 집합을 선택하였다. 또한 논리 프로그래밍이 제공하는 Unification 알고리즘 기반의 트리플 매칭, 검색, Conjunctive 질의어 처리 기반을 활용하는 온톨로지 추론 방식을 제안한다. 제안된 기법이 적용된 추론 엔진을 LUBM1500(트리플 수 2억개) 에 대해서 실험한 결과 166K/sec의 추론 성능을 얻었는데 이는 8개의 노드(8 코아/노드)환경에서 맵 리듀스로 수행한 WebPIE의 185K/sec의 추론 속도와 유사함을 실험적으로 증명하였다. 따라서 단일 머신에서 수행되는 본 연구 결과는 트리플의 수가 2억개 정도까지는 분산환경시스템을 활용하지 않고도 분산환경 시스템과 비교해서 비슷한 성능을 보이는 것을 확인할 수 있었다. As the web of data is increasingly producing large RDFS datasets, it becomes essential in building scalable reasoning engines over large triples. There have been many researches used expensive distributed framework, such as Hadoop, to reason over large RDFS triples. However, in many cases we are required to handle millions of triples. In such cases, it is not necessary to deploy expensive distributed systems because logic program based reasoners in a single machine can produce similar reasoning performances with that of distributed reasoner using Hadoop. In this paper, we propose a scalable RDFS reasoner using logical programming methods in a single machine and compare our empirical results with that of distributed systems. We show that our logic programming based reasoner using a single machine performs as similar as expensive distributed reasoner does up to 200 million RDFS triples. In addition, we designed a meta data structure by decomposing the ontology triples into separate sectors. Instead of loading all the triples into a single model, we selected an appropriate subset of the triples for each ontology reasoning rule. Unification makes it easy to handle conjunctive queries for RDFS schema reasoning, therefore, we have designed and implemented RDFS axioms using logic programming unifications and efficient conjunctive query handling mechanisms. The throughputs of our approach reached to 166K Triples/sec over LUBM1500 with 200 million triples. It is comparable to that of WebPIE, distributed reasoner using Hadoop and Map Reduce, which performs 185K Triples/sec. We show that it is unnecessary to use the distributed system up to 200 million triples and the performance of logic programming based reasoner in a single machine becomes comparable with that of expensive distributed reasoner which employs Hadoop framework.

      • KCI우수등재

        Extracting Rules from Neural Networks with Continuous Attributes

        Batselem Jagvaral(바트셀렘),Wan-Gon Lee(이완곤),Myung-joong Jeon(전명중),Hyun-Kyu Park(박현규),Young-Tack Park(박영택 ) 한국정보과학회 2018 정보과학회논문지 Vol.45 No.1

        지난 수십 년 동안 인공 신경망은 음성 인식에서 이미지 분류에 이르기까지 수많은 분야에서 성공적으로 사용되었다. 그러나 인공 신경망은 특정 결론이 어떻게 도출되었는지 알 필요가 있음에도 불구하고 이러한 결과를 설명할 수 있는 능력이 부족하다. 대부분의 연구는 신경망에서 이진 규칙을 추출하는데 초점을 맞추고 있지만, 기계 학습 응용 프로그램에 사용되는 데이터는 연속된 값이 포함되어 있기 때문에 실용적이지 않은 경우가 있다. 이러한 격차를 줄이기 위해 본 논문에서는 연속된 값이 포함된 데이터로부터 학습된 신경망에서 논리 규칙을 추출하는 알고리즘을 제안한다. 초평면 기반 선형 분류기를 사용하여 입력 및 은닉 층 사이에서 학습된 가중치로부터 규칙을 추출하고, 비선형 분류 규칙을 생성하기 위해 은닉 층과 출력 층에서 학습된 이진 규칙과 분류기를 결합한다. 비선형 연속값으로 구성된 여러 데이터셋을 대상으로 진행한 실험에서 제안하는 방법이 논리적 규칙을 정확하게 추출할 수 있음을 보였다. Over the decades, neural networks have been successfully used in numerous applications from speech recognition to image classification. However, these neural networks cannot explain their results and one needs to know how and why a specific conclusion was drawn. Most studies focus on extracting binary rules from neural networks, which is often impractical to do, since data sets used for machine learning applications contain continuous values. To fill the gap, this paper presents an algorithm to extract logic rules from a trained neural network for data with continuous attributes. It uses hyperplane-based linear classifiers to extract rules with numeric values from trained weights between input and hidden layers and then combines these classifiers with binary rules learned from hidden and output layers to form non-linear classification rules. Experiments with different datasets show that the proposed approach can accurately extract logical rules for data with nonlinear continuous attributes.

      • KCI등재

        분산 메모리 시스템에서의 SPARQL 질의 처리

        작바랄 바트셀렘(Batselem Jagvaral),이완곤(Wangon Lee),김강필(Kang-Pil Kim),박영택(Young-Tack Park) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.9

        본 논문에서는 functional 프로그래밍과 분산 메모리 환경인 Spark를 통해 SPARQL 질의문 처리의 오버헤드를 줄일 수 있는 방법을 제안한다. 최근 몇 년간 시멘팁웹의 RDF 온톨로지 데이터는 폭발적으로 증가하고 있기 때문에, 대용량 온톨로지 데이터에 대한 질의문을 효율적으로 처리할 수 있는 방법이 주요 쟁점으로 떠오르고 있다. SPARQL 질의문 처리에 대한 기존의 연구들은 하둡의 맵리듀스 프레임워크에 초점을 맞추고 있다. 그러나 하둡은 분산 파일 처리를 기반의 작업을 수행하므로 성능 저하가 발생할 수 있다. 따라서 질의문 처리 속도를 향상 시키기 위해 본 논문에서는 분산 메모리 시스템을 통해 질의문을 처리할 수 있는 방법을 제안한다. 또한 SPARQL 질의어 사이의 Binding 값을 Propagation하기 위해서 Spark의 Join방식, Functional 프로그램의 Map, Filter 방식, Spark의 캐시 기능을 활용 하는 방식을 제안하고 있다. 본 논문의 실험 결과는 다른 기법들과 비교하여 높은 성능을 얻었다. 특히 현재 가장 빠른 성능을 보이는 SPARQL 질의 엔진인 Sempala와 유사하다는 결과를 얻었다. In this paper, we propose a query processing approach that uses the Spark functional programming and distributed memory system to solve the computational overhead of SPARQL. In the semantic web, RDF ontology data is produced at large scale, and the main challenge for the semantic web is to query and manipulate such a large ontology with a high throughput. The most existing studies on SPARQL have focused on deploying the Hadoop MapReduce framework, and although approaches based on Hadoop MapReduce have shown promising results, they achieve a low level of throughput due to the underlying distributed file processes. Therefore, in order to speed up the query processes, we suggest query- processing methods that are based on memory caching in distributed memory system. Our approach is also integrated with a clause unification method for propagating between the clauses that exploits Spark join, map and filter methods along with caching. In our experiments, we have achieved a high level of performance relative to other approaches. In particular, our performance was nearly similar to that of Sempala, which has been considered to be the fastest query processing system.

      • KCI등재

        인메모리 기반 병렬 컴퓨팅 그래프 구조를 이용한 대용량 RDFS 추론

        전명중(MyungJoong Jeon),소치승(ChiSeoung So),바트셀렘(Batselem Jagvaral),김강필(KangPil Kim),김진(Jin Kim),홍진영(JinYoung Hong),박영택(YoungTack Park) 한국정보과학회 2015 정보과학회논문지 Vol.42 No.8

        근래에 들어 풍부한 지식베이스를 구축하기 위한 대용량 RDFS 추론에 대한 관심이 높아지면서 기존의 단일 머신으로는 대용량 데이터의 추론 성능을 향상시키기에 한계가 있다. 그래서 분산 환경에서 의 RDFS 추론 엔진 개발이 활발히 연구되고 있다. 하지만 기존의 분산 환경 엔진은 실시간 처리가 불가능 하며 구현이 어렵고 반복 작업에 취약하다. 본 논문에서는 이러한 문제를 극복하기 위해 병렬 그래프 구조 를 사용한 인-메모리 분산 추론 엔진 구축 방법을 제안한다. 트리플 형태의 온톨로지는 기본적으로 그래프 구조를 가지고 있으므로 그래프 구조 기반의 추론 엔진을 설계하는 것이 직관적이다. 또한 그래프 구조를 활용하는 오퍼레이터를 활용하여 RDFS 추론 규칙을 구현함으로써 기존의 데이터 관점과 달리 그래프 구조의 관점에서 설계할 수 있다. 본 논문에서 제안한 추론 엔진을 평가하기 위해 LUBM1000(1억 3천 3백만 트리플, 17.9GB), LUBM3000(4억 1천 3백만 트리플, 54.3GB)에 대해 추론 속도를 실험을 하였으며 실 험결과, 비-인메모리 분산 추론 엔진보다 약 10배 정도 빠른 추론 성능을 보였다. In recent years, there has been a growing interest in RDFS Inference to build a rich knowledge base. However, it is difficult to improve the inference performance with large data by using a single machine. Therefore, researchers are investigating the development of a RDFS inference engine for a distributed computing environment. However, the existing inference engines cannot process data in real-time, are difficult to implement, and are vulnerable to repetitive tasks. In order to overcome these problems, we propose a method to construct an in-memory distributed inference engine that uses a parallel graph structure. In general, the ontology based on a triple structure possesses a graph structure. Thus, it is intuitive to design a graph structure-based inference engine. Moreover, the RDFS inference rule can be implemented by utilizing the operator of the graph structure, and we can thus design the inference engine according to the graph structure, and not the structure of the data table. In this study, we evaluate the proposed inference engine by using the LUBM1000 and LUBM3000 data to test the speed of the inference. The results of our experiment indicate that the proposed in-memory distributed inference engine achieved a performance of about 10 times faster than an in-storage inference engine.

      • KCI우수등재

        지식 베이스 임베딩을 활용한 지식 완성 모델링 기법

        최현영(Hyun-Young Choi),홍지훈(Ji-Hun Hong),이완곤(Wan-Gon Lee),바트셀렘(Batselem Jagvaral),전명중(Myung-Joong Jeon),박현규(Hyun-Kyu Park),박영택(Young-Tack Park) 한국정보과학회 2018 정보과학회논문지 Vol.45 No.9

        최근 웹 데이터를 기반으로 자동적으로 지식베이스를 구축하는 방법들이 연구되고 있지만, 웹데이지터의 불완전성으로 인해 일부 데이터가 누락되거나 다른 데이터와의 연결이 부족한 경우가 발생한다. 이러한 문제를 해결하기 위해 기존 연구들은 자연어 임베딩을 기반으로 인공 신경망을 통해 학습하는 방법들을 제안했다. 하지만 실제로 사용되는 많은 지식베이스의 경우 자연어 말뭉치가 존재하지 않아 엔티티 임베딩에 어려움이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 지식 베이스의 RDF 데이터를 문장 형태의 RDF-Sentence로 변환 후 임베딩에 사용하여 단어 벡터를 생성하고 신경망을 사용하는 지식 완성 기법을 제안한다. 본 논문에서는 제안하는 방법의 성능을 측정하기 위해 트리플 분류 실험을 진행했다. 기존 NTN 모델과 비교 실험을 수행하였고, 기존 연구보다 평균적으로 15% 높은 정확도를 얻었다. 또한, 한국어 최대 지식 베이스인 WiseKB 지식 베이스에 적용하여 88%의 정확도를 얻었다. In recent years, a number of studies have been conducted for the purpose of automatically building a knowledge base that is based on web data. However, due to the incomplete nature of web data, there can be missing data or a lack of connections among the data entities that are present. In order to solve this problem, recent studies have proposed methods that train a model to predict this missing data through an artificial neural network based on natural language embedding, but there is a drawback to embedding entities. In practice, natural language corpus is not present in many knowledge bases. Therefore, in this paper, we propose a knowledge completion method that converts the knowledge base of RDF data into an RDF-sentence and uses embedding to create word vectors. We conducted a triple classification experiment in order to measure the performance of the proposed method. The proposed method was then compared with existing NTN models, and on average, 15% accuracy was obtained. In addition, we obtained 88%accuracy by applying the proposed method to the Korean knowledge base known as WiseKB.

      • KCI우수등재

        신뢰값 기반 대용량 트리플 처리를 위한 스파크 환경에서의 RDFS 온톨로지 추론

        박현규(Hyun-Kyu Park),이완곤(Wan-Gon Lee),바트셀렘(Batselem Jagvaral),박영택(Young-Tack Park) 한국정보과학회 2016 정보과학회논문지 Vol.43 No.1

        최근 인터넷과 디바이스의 발전으로 지식 정보의 양이 방대해 지면서 대용량 온톨로지를 이용한 추론 연구가 활발히 진행되고 있다. 일반적으로 트리플로 표현되는 빅데이터는 기계학습 프로그램이나 지식 공학자가 각 트리플의 신뢰도를 측정하여 제공한다. 하지만 수집된 데이터는 불확실한 데이터를 포함하고 있으며, 이러한 데이터를 추론하는 것은 불확실성을 내포한 추론 결과를 초래할 수 있다. 본 논문에서는 불확실성 문제를 해결하기 위해 수집된 데이터에 대한 신뢰의 정도를 나타내는 신뢰값(Confidence Value)를 이용한 RDFS 규칙 추론 방법에 대하여 설명하고, 메모리 기반의 분산 클러스터 프레임워크인 스파크(Spark)를 기반으로 데이터의 불확실성에 대한 고려를 하지 않는 기존의 추론 방법과 달리 신뢰값 계산에 대한 방법을 응용하여 RDFS 규칙을 통해 추론되는 새로운 데이터의 신뢰값을 계산하며, 계산된 신뢰값은 추론된 데이터에 대한 불확실성을 나타낸다. 제안하는 추론 방법의 성능을 검증하기 위해 온톨로지 추론과 검색 속도를 평가할 때 활용되는 공식 데이터인 LUBM을 대상으로 신뢰값을 추가하여 실험을 수행하였으며, 가장 큰 데이터인 LUBM3000을 수행하였을 때 1179초의 추론시간이 소요되었고, 초당 350K 트리플을 처리할 수 있는 성능을 보였다. Recently, due to the development of the Internet and electronic devices, there has been an enormous increase in the amount of available knowledge and information. As this growth has proceeded, studies on large-scale ontological reasoning have been actively carried out. In general, a machine learning program or knowledge engineer measures and provides a degree of confidence for each triple in a large ontology. Yet, the collected ontology data contains specific uncertainty and reasoning such data can cause vagueness in reasoning results. In order to solve the uncertainty issue, we propose an RDFS reasoning approach that utilizes confidence values indicating degrees of uncertainty in the collected data. Unlike conventional reasoning approaches that have not taken into account data uncertainty, by using the in-memory based cluster computing framework Spark, our approach computes confidence values in the data inferred through RDFS-based reasoning by applying methods for uncertainty estimating. As a result, the computed confidence values represent the uncertainty in the inferred data. To evaluate our approach, ontology reasoning was carried out over the LUBM standard benchmark data set with addition arbitrary confidence values to ontology triples. Experimental results indicated that the proposed system is capable of running over the largest data set LUBM3000 in 1179 seconds inferring 350K triples.

      • KCI우수등재

        신뢰 값 기반의 대용량 OWL Horst 온톨로지 추론

        이완곤(Wan-Gon Lee),박현규(Hyun-Kyu Park),바트셀렘(Batselem Jagvaral),박영택(Young-Tack Park) 한국정보과학회 2016 정보과학회논문지 Vol.43 No.5

        웹으로부터 얻어진 데이터를 통해 자동적으로 온톨로지를 확장하는 많은 기계학습 방법들이 존재한다. 또한 대용량 온톨로지 추론에 대한 관심이 증가하고 있다. 하지만 웹으로부터 얻어진 다양한 데이터의 신뢰성 문제를 고려하지 않으면, 불확실성을 내포하는 추론결과를 초래하는 문제점이 있다. 현재 대용량 온톨로지의 신뢰도를 반영하는 추론에 대한 연구가 부족하기 때문에 신뢰 값 기반의 대용량 온톨로지 추론 방법론이 요구되고 있다. 본 논문에서는 인메모리 기반의 분산 클러스터 프레임워크인 스파크 환경에서 신뢰 값 기반의 대용량 OWL Horst 추론 방법에 대해서 설명한다. 기존의 연구들의 문제점인 중복 추론된 데이터의 신뢰 값을 통합하는 방법을 제안한다. 또한 추론의 성능을 저하시키는 문제를 해결할 수 있는 분산 병렬 추론 알고리즘을 설명한다. 본 논문에서 제안하는 신뢰 값 기반의 추론 방법의 성능을 평가하기 위해 LUBM3000을 대상으로 실험을 진행했고, 기존의 추론엔진인 WebPIE에 비해 약 2배 이상의 성능을 얻었다. Several machine learning techniques are able to automatically populate ontology data from web sources. Also the interest for large scale ontology reasoning is increasing. However, there is a problem leading to the speculative result to imply uncertainties. Hence, there is a need to consider the reliability problems of various data obtained from the web. Currently, large scale ontology reasoning methods based on the trust value is required because the inference-based reliability of quantitative ontology is insufficient. In this study, we proposed a large scale OWL Horst reasoning method based on a confidence value using spark, a distributed in-memory framework. It describes a method for integrating the confidence value of duplicated data. In addition, it explains a distributed parallel heuristic algorithm to solve the problem of degrading the performance of the inference. In order to evaluate the performance of reasoning methods based on the confidence value, the experiment was conducted using LUBM3000. The experiment results showed that our approach could perform reasoning twice faster than existing reasoning systems like WebPIE.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼