RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크

        김대희(Daehee Kim),박능수(Neungsoo Park) 대한전기학회 2018 전기학회논문지 Vol.67 No.2

        Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

      • KCI등재

        SPQUSAR : Apache Spark를 이용한 대용량의 정성적 공간 추론기

        김종환(Jongwhan Kim),김종훈(Jonghoon Kim),김인철(Incheol Kim) 한국정보과학회 2015 정보과학회 컴퓨팅의 실제 논문지 Vol.21 No.12

        본 논문에서는 단위 추론 작업들 간의 순차 처리와 반복 처리에 효과적인 인-메모리 방식의 고속 클러스터 컴퓨팅 환경인 Apache Spark을 이용한 대용량의 정성적 공간 추론기의 설계와 구현에 관해 소개한다. 본 논문에서 제안하는 공간 추론기는 매우 효율적인 방법으로, 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 대규모 공간 지식베이스의 무결성을 검사할 수 있을 뿐만 아니라, 주어진 공간지식베이스로부터 새로운 사실들을 유도해냄으로써 지식베이스를 확장할 수도 있다. 일반적으로 공간 객체들 간의 위상 관계와 방향 관계에 관한 정성적 추론은 이접 관계들 간의 많은 조합 연산들을 포함한다. 본 추론기에서는 공간 추론에 필요한 최소한의 이접 관계 집합을 찾아내고 이들만을 포함하도록 조합 표를 축소함으로써, 추론의 효율성을 크게 개선시켰다. 또한, 본 추론기에서는 추론 성능 향상을 위해 Hadoop 클러스터 시스템에서 분산 추론 작업이 진행되는 동안 디스크 입출력을 최소화하도록 설계하였다. 대용량의 가상 및 실제 공간 지식베이스를 이용한 실험들에서, 본 논문에서 제안하는 Apache Spark 기반의 정성적 공간 추론기가 MapReduce 기반의 기존 추론기보다 더 높은 성능을 보여주었다. In this paper, we present the design and implementation of a large-scale qualitative spatial reasoner using Apache Spark, an in-memory high speed cluster computing environment, which is effective for sequencing and iterating component reasoning jobs. The proposed reasoner can not only check the integrity of a large-scale spatial knowledge base representing topological and directional relationships between spatial objects, but also expand the given knowledge base by deriving new facts in highly efficient ways. In general, qualitative reasoning on topological and directional relationships between spatial objects includes a number of composition operations on every possible pair of disjunctive relations. The proposed reasoner enhances computational efficiency by determining the minimal set of disjunctive relations for spatial reasoning and then reducing the size of the composition table to include only that set. Additionally, in order to improve performance, the proposed reasoner is designed to minimize disk I/Os during distributed reasoning jobs, which are performed on a Hadoop cluster system. In experiments with both artificial and real spatial knowledge bases, the proposed Spark-based spatial reasoner showed higher performance than the existing MapReduce-based one.

      • KCI등재

        Spark에서 SVM을 이용한 음성 틱 증상 감지시스템 개발

        채수성,김인아,이규철 한국정보과학회 2016 데이타베이스 연구 Vol.32 No.3

        Vocal tic is the disorder which repeats suddenly and rapidly certain sounds. In this paper, we develop detection system of vocal tic symptoms using speech recognition based on machine learning. In order to detect a variety of irregular vocal tic symptoms depending on people, we extract MFCC feature vectors and train the detection model using SVM algorithm. We perform the evaluation of the recognition model and it shows a precision of 93.07%. However, the process of training the detection model takes a lot of time. In order to reduce the train time, we use Apache Spark which is the in-memory distributed engine. The experimental result of the spark based train time is found to indicate a faster rate compared to Non-spark based train time. 음성 틱 장애는 갑작스럽고 빠르게 특정 소리를 반복하는 틱 증상을 가지는 장애이며, 음성 틱 증상의 조기치료 및 감지를 통해 뚜렛 증후군으로의 발전을 막아야 한다. 본 논문에서는 기계학습 기반의 음성인식 기술을 사용하여 자동적으로 음성 틱 증상을 감지하는 시스템을 개발한다. 환자에 따라 다양하고 불규칙적인 음성틱 증상을 감지하기 위해 MFCC 특징 벡터 값을 추출하였고, SVM 알고리즘을 통해 감지 모델을 생성하였으며, 실험 평가 결과 93.07%의 정밀도를 확인하였다. 또한 감지 모델 생성 과정 시 많은 시간이 소요되는 것을 고려하여, 감지 모델 생성 과정에서 발생하는 지연 시간을 감소시키기 위해 본 논문에서는 인 메모리 분산처리 엔진인 Spark를 사용하여 감지 모델 생성 시간을 약 4배가량 감소시켰다.

      • Performance Comparison of MySQL Cluster and Apache Spark for Big Data Applications

        Indira Bidari,Sindhooja K,Satyadhyan Chickerur 보안공학연구지원센터 2016 International Journal of Software Engineering and Vol.10 No.6

        Working with data involves two major factors, storing the data and performing computations by accessing the data. MySQL is the first Database Management Software that provided an effective and efficient method for data storage and computations. However, with the huge amount of data that is getting generated every day from various fields, need for the advanced methods for managing and analyzing the big data is very much obvious. One of such platforms, which were developed exclusively for Big Data Analytics, is Apache Spark. Though MySQL is preferred for small amount of Data and Spark is meant for big data, many of the functionalities are found similar in both and they can be considered for a comparative study. In this work we have executed a set of queries with common functionalities for a dataset on both the frameworks. The obtained results are analyzed by visualizing aids to arrive at appropriate conclusion.

      • KCI등재

        Apache Spark을 이용한 병렬 DNA 시퀀스 지역 정렬 기법 구현

        김보성(Bosung Kim),김진수(Jinsu Kim),최도진(Dojin Choi),김상수(Sangsoo Kim),송석일(Seokil Song) 한국콘텐츠학회 2016 한국콘텐츠학회논문지 Vol.16 No.10

        Smith-Waterman(SW) 알고리즘은 DNA 시퀀스 분석에서 중요한 연산 중 하나인 지역 정렬을 처리하는 알고리즘이다. SW 알고리즘은 동적 프로그래밍 방법으로 최적의 결과를 도출할 수 있지만 수행시간이 매우 길다는 문제가 있다. 이를 해결하기 위해서 다수의 노드를 이용한 병렬 분산 처리 기반의 SW 알고리즘이 제안되었다. Apache Spark을 기반으로 하는 병렬 분산 DNA 처리 프레임워크인 ADAM에서도 SW알고리즘을 병렬로 처리하고 있다. 하지만, ADAM의 SW 알고리즘은 Smith-Waterman 이 동적프로그래밍 기법이라는 특성을 고려하지 않고 있어 최대의 성능을 얻지 못하고 있다. 이 논문에서는 ADAM의 병렬 SW 알고리즘을 개선한다. 제안하는 병렬 SW 기법은 두 단계에 걸쳐 실행된다. 첫 번째 단계에서는 지역정렬 대상인 DNA 시퀀스를 다수의 파티션(partition)으로 분할하고 분할된 각 파티션에 대해서 SW 알고리즘을 병렬로 수행한다. 두 번째 단계에서는 파티션 각각에 대해서 독립적으로 SW를 적용함으로써 발생하는 오류를 보완하는 과정을 역시 병렬로 수행한다. 제안하는 병렬 SW 알고리즘은 ADAM을 기반으로 구현하고 기존 ADAM의 SW와 비교를 통해서 성능을 입증한다. 성능 평가 결과 제안하는 병렬 SW 알고리즘이 기존의 SW에 비해서 2배 이상의 좋은 성능을 내는 것을 확인하였다. The Smith-Watrman (SW) algorithm is a local alignment algorithm which is one of important operations in DNA sequence analysis. The SW algorithm finds the optimal local alignment with respect to the scoring system being used, but it has a problem to demand long execution time. To solve the problem of SW, some methods to perform SW in distributed and parallel manner have been proposed. The ADAM which is a distributed and parallel processing framework for DNA sequence has parallel SW. However, the parallel SW of the ADAM does not consider that the SW is a dynamic programming method, so the parallel SW of the ADAM has the limit of its performance. In this paper, we propose a method to enhance the parallel SW of ADAM. The proposed parallel SW (PSW) is performed in two phases. In the first phase, the PSW splits a DNA sequence into the number of partitions and assigns them to multiple nodes. Then, the original Smith-Waterman algorithm is performed in parallel at each node. In the second phase, the PSW estimates the portion of data sequence that should be recalculated, and the recalculation is performed on the portions in parallel at each node. In the experiment, we compare the proposed PSW to the parallel SW of the ADAM to show the superiority of the PSW.

      • Review on Influence tracking "Should we analyze writer's intentions or reader perceptions"

        Noor Zafar,Siphy Srephen 한국디지털융합학회 2021 IJICTDC Vol.6 No.2

        Social media websites have emerged as one of the platforms to raise users’ opinions and influence the way any business is commercialized. Opinion of people matters a lot to analyze how the propagation of information impacts the lives in a large-scale network like Twitter Sentiment analysis of the tweets determine the polarity and inclination of vast population towards specific topic, item or entity. These days, the applications of such analysis can be easily observed during public elections, movie promotions, brand end. In this project, we exploited the fast and in memory computation framework 'Apache Spark' to extract live tweets and perform sentiment analysis. The primary aim is to provide a method for analyzing sentiment score in noisy twitter streams. This paper reports on the design of a sentiment analysis, extracting vast number of tweets. Results classify user's perception via tweets into positive and negative. Secondly, we discuss various techniques to carryout sentiment analysis on twitter data in detail.

      • BiSpark: a Spark-based highly scalable aligner for bisulfite sequencing data

        Soe, Seokjun,Park, Yoonjae,Chae, Heejoon BioMed Central 2018 BMC bioinformatics Vol.19 No.1

        <P><B>Background</B></P><P>Bisulfite sequencing is one of the major high-resolution DNA methylation measurement method. Due to the selective nucleotide conversion on unmethylated cytosines after treatment with sodium bisulfite, processing bisulfite-treated sequencing reads requires additional steps which need high computational demands. However, a dearth of efficient aligner that is designed for bisulfite-treated sequencing becomes a bottleneck of large-scale DNA methylome analyses.</P><P><B>Results</B></P><P>In this study, we present a highly scalable, efficient, and load-balanced bisulfite aligner, BiSpark, which is designed for processing large volumes of bisulfite sequencing data. We implemented the BiSpark algorithm over the Apache Spark, a memory optimized distributed data processing framework, to achieve the maximum data parallel efficiency. The BiSpark algorithm is designed to support redistribution of imbalanced data to minimize delays on large-scale distributed environment.</P><P><B>Conclusions</B></P><P>Experimental results on methylome datasets show that BiSpark significantly outperforms other state-of-the-art bisulfite sequencing aligners in terms of alignment speed and scalability with respect to dataset size and a number of computing nodes while providing highly consistent and comparable mapping results.</P><P><B>Availability</B></P><P>The implementation of BiSpark software package and source code is available at https://github.com/bhi-kimlab/BiSpark/.</P>

      • Delta Lake에서의 데이터 정리와 최적화 전략: Compaction-Vacuum 연구

        김동희(DongHee Kim),김부건(BuGeon Kim),남도영(DoYoung Nam),표성민(SungMin Pyo),윤영언(YoungEon Yoon),배지훈(Ji-Hoon Bae),이종혁(JongHyuk Lee) 한국정보기술학회 2024 Proceedings of KIIT Conference Vol.2024 No.5

        본 논문은 Delta Lake의 Compaction과 Vacuum 기술에 대한 조사를 중점적으로 다룬다. Delta Lake는 Apache Spark를 기반으로 구축된 오픈 소스 프로젝트로, 데이터의 무결성, 일관성, 확장성을 보장하며 대용량 데이터 처리 및 데이터 웨어하우스와 같은 분석 작업을 효과적으로 지원한다. 빅데이터에서 수많은 작은 파일들은 다양한 문제의 원인이 된다. Delta Lake의 최적화 기술 중 Compaction은 작은 Parquet 파일을 더 큰 파일로 압축하여 파일 I/O 오버헤드를 줄여주는 최적화 방법으로, 성능 향상과 데이터 처리 시간 절약을 제공한다. 반면에, Vacuum은 이전 버전의 데이터 파일을 정리하여 저장 공간을 최적화여 데이터 보관 비용 절약을 제공한다. 본 연구는 Compaction과 Vacuum의 동작 원리, 활용 방안, 각 기술의 장단점을 분석하며, Delta Lake의 데이터 관리에 대한 성능 및 비용 효율성을 위한 두 가지 기술의 최적 전략을 탐색한다. This paper focuses on the investigation of Delta Lakes Compaction and Vacuum techniques. Delta Lake is an open-source project built on Apache Spark, ensuring data integrity, consistency, and scalability, effectively supporting large-scale data processing and analytical tasks such as data warehousing. In big data, numerous small files often cause various issues. Among Delta Lakes optimization techniques, Compaction compresses small Parquet files into larger ones, reducing file I/O overhead, thus providing performance improvement and saving data processing time. On the other hand, Vacuum optimizes storage space and saves data retention costs by cleaning up previous versions of data files. This study analyzes the operating principles, applications, and pros and cons of Compaction and Vacuum, exploring optimal strategies for data management in Delta Lake to enhance performance and cost-effectiveness.

      • KCI등재

        아파치 스파크 활용 극대화를 위한 성능 최적화 기법

        명노영 ( Rohyoung Myung ),유헌창 ( Heonchang Yu ),최수경 ( Sukyong Choi ) 한국정보처리학회 2018 정보처리학회논문지. 컴퓨터 및 통신시스템 Vol.7 No.1

        Enhancing performance of big data analytics in distributed environment has been issued because most of the big data related applications such as machine learning techniques and streaming services generally utilize distributed computing frameworks. Thus, optimizing performance of those applications at Spark has been actively researched. Since optimizing performance of the applications at distributed environment is challenging because it not only needs optimizing the applications themselves but also requires tuning of the distributed system configuration parameters. Although prior researches made a huge effort to improve execution performance, most of them only focused on one of three performance optimization aspect: application design, system tuning, hardware utilization. Thus, they couldn’t handle an orchestration of those aspects. In this paper, we deeply analyze and model the application processing procedure of the Spark. Through the analyzed results, we propose performance optimization schemes for each step of the procedure: inner stage and outer stage. We also propose appropriate partitioning mechanism by analyzing relationship between partitioning parallelism and performance of the applications. We applied those three performance optimization schemes to WordCount, Pagerank, and Kmeans which are basic big data analytics and found nearly 50% performance improvement when all of those schemes are applied.

      • KCI우수등재

        Scala를 위한 컴파일러 지시자 기반 이종컴퓨팅

        우정재,박성수,홍성인,한환수 한국정보과학회 2023 정보과학회논문지 Vol.50 No.3

        빅데이터 시대가 도래하면서 대용량 데이터를 처리하기 위해 이종 가속기가 사용되고 있다. 대표적인 빅데이터 분석 프레임워크인 Apache Spark는 Scala 언어로 구현되어 있으므로 Scala로 구현된 프로그램을 CUDA, OpenCL 등으로 재작성 해야 이종 가속기를 사용할 수 있다. TornadoVM은 Java 컴파일지시문을 사용하여 Java 프로그램을 OpenCL로 자동변환한다. Scala는 컴파일 결과물로써 동일한 형태의 바이트 코드를 Java와 공유하지만 현재 Scala 컴파일러는 TornadoVM이 OpenCL로 변환하는데 필요한 수준의 컴파일지시문을 지원하지 않는다. 본 논문에서는 Scala에서 컴파일지시문을 지원하여 TornadoVM을 통해 Scala 프로그램을 OpenCL로 변환할수 있도록 개선했고, 그 성능을 검증하였다. 이를 사용하여 Apache Spark 등의 Scala 프로그램에서 GPU 가속기를 쉽게 사용할 수 있을 것으로 기대한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼