RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석

        김성수(Sungsoo Kim),김동헌(Dongheon Kim),우상규(Sangkyu Woo),임인성(Insung Ihm) 한국정보과학회 2010 정보과학회 컴퓨팅의 실제 논문지 Vol.16 No.7

        GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다. Unlike general-purpose CPUs, the GPUs have been specialized as many-core streaming processors, and are frequently replacing the CPUs in an increasing range of computations thanks to their outstanding parallel computing capacity. In order to respond to such trend, NVIDIA has recently issued a new parallel computing architecture called CUDA(Compute Unified Device Architecture), offering a flexible GPU programming environment for GPGPU(General Purpose GPU) computing. In general, when programmers use the CUDA API, they should clearly understand many aspects of GPU's computing architecture to produce efficient parallel software. In this article, we explain several optimization techniques for CUDA programming that we have verified through a lot of experiment and trial and error, and review how those techniques affect the performance of code execution. In particular, we use a specific problem as an example to analyze several elements that affect performances, such as effective accesses to hierarchical memory system, processor occupancy, and latency hiding. In conclusion, we present several directions that may be utilized effectively in CUDA-based parallel programming.

      • KCI등재

        비x86 플랫폼 상에서의 CUDA 컴퓨팅을 위한 QEMU 및 GPGPU-Sim 기반 시뮬레이션 프레임워크 개발

        황재민(Jaemin Hwang),최종욱(Jong-Wook Choi),최성림(Seongrim Choi),남병규(Byeong-Gyu Nam) 한국산업정보학회 2014 한국산업정보학회논문지 Vol.19 No.2

        본 논문에서는 QEMU와 GPGPU-Sim에 기반하여 비x86 플랫폼을 위한 CUDA 시뮬레이션 프레임워크를 제안한다. 기존 CPU-GPU 이종 컴퓨팅 시뮬레이터는 x86 CPU 모델만을 지원하거나 CUDA를 지원하지 않는 한계를 가진다. 제안된 시뮬레이터는 이러한 문제를 해결하기 위해 x86을 포함하여 비x86 CPU 모델을 지원 가능한 QEMU와 CUDA를 지원하는 GPU 시뮬레이터인 GPGPU-Sim을 통합하였다. 이를 통해 비x86 기반의 CUDA 컴퓨팅 환경을 시뮬레이션할 수 있도록 하였다. This paper proposes a CUDA simulation framework for non-x86 computing platforms based on QEMU and GPGPU-sim. Previous simulators for heterogeneous computing platforms did not support for non-x86 CPU models or CUDA computing platform. In this work, we combined the QEMU and the GPGPU-Sim to support the non-x86 CPU models and the CUDA platform, respectively. This approach provides a simulation framework for CUDA computing on non-x86 CPU models.

      • KCI등재

        CUDA를 이용한 Particle Swarm Optimization 구현

        김조환(Jo-Hwan Kim),김은수(Eun-Su Kim),김종욱(Jong-Wook Kim) 대한전기학회 2009 전기학회논문지 Vol.58 No.5

        In this paper, particle swarm optimization (PSO) is newly implemented by CUDA (Compute Unified Device Architecture) and is applied to function optimization with several benchmark functions. CUDA is not CPU but GPU (Graphic Processing Unit) that resolves complex computing problems using parallel processing capacities. In addition, CUDA helps one to develop GPU softwares conveniently. Compared with the optimization result of PSO executed on a general CPU, CUDA saves about 38% of PSO running time as average, which implies that CUDA is a promising frame for real-time optimization and control.

      • KCI등재

        GPGPU를 사용한 다상분해 주파수 대역압축 및 복원기의 병렬화

        송재민(Jae-Min Song),정용배(Yong-Bae Jung),박영석(Young-Seak Park) 한국지능시스템학회 2018 한국지능시스템학회논문지 Vol.28 No.3

        본 논문에서는 2차원 다상분해 영상신호의 주파수 대역 압축 및 복원 알고리즘을 PC기반에서 GPGPU를 사용하여 병렬구조로 설계하고, CPU, OpenCL(Open Computing Language) 그리고 CUDA(Compute Unified Device Architecture)로 구현하였다. 그리고 여러 고해상도 영상을 사용한 실험을 통해서 병렬화에 따른 처리 성능을 비교하였다. 그 결과 각각의 해상도에서 CPU 처리 속도 대비 OpenCL은 480~3800배, CUDA는 700~5000배 성능 향상을 보였다. CPU의 경우 해상도가 증가함에 따라 처리 시간이 지연되었으나, 병렬 처리 기반의 OpenCL과 CUDA는 본 실험 영상의 해상도 증가에 따른 처리시간 지연이 발생하지 않았고, OpenCL보다 CUDA가 더 효과적인 것을 확인하였다. In this paper, CPU, OpenCL (Open Computing Language) and CUDA (Compute Unified Device Architecture) algorithms are implemented by designing a frequency band compression and decompression algorithm of two-dimensional polyphase decomposed image signal in parallel structure using PC based GPGPU. Then, through experiments using various high resolution images. the processing performance by parallelization was compared. As a result, with each resolution, OpenCL gained 480 to 3800 times and CUDA increased 700 to 5000 times compared with CPU processing speed. In the case of CPU algorithm, the processing time was delayed as the resolution increased, but the processing time of OpenCL and CUDA algorithms did not cause delay in processing time accompanying the increase in the resolution of this experimental image data, and We confirmed that CUDA is more effective than OpenCL.

      • KCI등재

        BioFET 시뮬레이션을 위한 CUDA 기반 병렬 Bi-CG 행렬 해법

        박태정(Taejung Park),우준명(Jun-Myung Woo),김창헌(Chang-Hun Kim) 大韓電子工學會 2011 電子工學會論文誌-CI (Computer and Information) Vol.48 No.1

        본 연구에서는 연산 부하가 매우 큰 Bio-FET 시뮬레이션을 위해 낮은 비용으로 대규모 병렬처리 환경 구축이 가능한 최신그래픽 프로세서(GPU)를 이용해서 선형 방정식 해법을 수행하기 위한 병렬 Bi-CG(Bi-Conjugate Gradient) 방식을 제안한다. 제안하는 병렬 방식에서는 반도체 소자 시뮬레이션, 전산유체역학(CFD), 열전달 시뮬레이션 등을 포함한 다양한 분야에서 많은 연산량이 집중되어 전체 시뮬레이션에 필요한 시간을 증가시키는 포아송(Poisson) 방정식의 해를 병렬 방식으로 구한다. 그 결과, 이 논문의 테스트에서 사용된 FDM 3차원 문제 공간에서 단일 CPU 대비 연산 속도가 최대 30 배 이상 증가했다. 실제 구현은 NVIDIA의 테슬라 아키텍처(Tesla Architecture) 기반 GPU에서 범용 목적으로 병렬 프로그래밍이 가능한 NVIDIA사의 CUDA(Compute Unified Device Architecture) 환경에서 수행되었으며 기존 연구가 주로 32 비트 정밀도(single floating point) 실수 범위에서 수행된 것과는 달리 본 연구는 64 비트 정밀도(double floating point) 실수 범위로 수행되어 Bi-CG 해법의 수렴성을 개선했다. 특히, CUDA는 비교적 코딩이 쉬운 반면, 최적화가 어려운 특성이 있어 본 논문에서는 제안하는 Bi-CG 해법에서의 최적화 방향도 논의한다. We present a parallel bi-conjugate gradient (Bi-CG) matrix solver for large scale Bio-FET simulations based on recent graphics processing units (GPUs) which can realize a large-scale parallel processing with very low cost. The proposed method is focused on solving the Poisson equation in a parallel way, which requires massive computational resources in not only semiconductor simulation, but also other various fields including computational fluid dynamics and heat transfer simulations. As a result, our solver is around 30 times faster than those with traditional methods based on single core CPU systems in solving the Possion equation in a 3D FDM (Finite Difference Method) scheme. The proposed method is implemented and tested based on NVIDIA's CUDA (Compute Unified Device Architecture) environment which enables general purpose parallel processing in GPUs. Unlike other similar GPU-based approaches which apply usually 32-bit single-precision floating point arithmetics, we use 64-bit double-precision operations for better convergence. Applications on the CUDA platform are rather easy to implement but very hard to get optimized performances. In this regard, we also discuss the optimization strategy of the proposed method.

      • KCI등재

        CUDA Implementation of Kernel Independent Component Analysisfor Reflection Removal

        무하마드 나비드 이끼발 쿠레쉬,사이라 나비드,이상웅 한국차세대컴퓨팅학회 2012 한국차세대컴퓨팅학회 논문지 Vol.8 No.3

        빗물이나 도로 표면의 종류에 따라 발생되는 반사광은 도로 상황을 자동으로 분석하는 비전 기술에서 가장 어려운 문제점 중의 하나이다. 특히 무인 자동 주행에서는 운전자의 안전을 위하여 어떠한 경우에도 정확한 도로 분석을 필요로 하며, 동시에 실시간 처리도 요구된다. 본 논문에서는 여러 가지 상황에서 조명 반사를 제거하기 위하여 커널 독립 성분 분석을 이용하여 조명 반사와 도로 정보를 분리하는 방법을 제안하며, 실시간 처리를 위하여 CUDA를 이용하여 구현하였다. 제안된 방법은 실험을 통해서 성능 평가 되었으며, 향후 적용 가능한 가능성을 보여주었다.

      • KCI등재

        CUDA와 OpenMP를 이용한 빠르고 효율적인 신경망 구현

        박안진(Anjin Park),장홍훈(Honghoon Jang),정기철(Keechul Jung) 한국정보과학회 2009 정보과학회논문지 : 소프트웨어 및 응용 Vol.36 No.4

        컴퓨터 비전이나 패턴 인식 분야에서 이용되고 있는 많은 알고리즘들이 최근 빠른 수행시간을 위해 GPU에서 구현되고 있지만, GPU를 이용하여 알고리즘을 구현할 경우 크게 두 가지 문제점을 고려해야 한다. 첫째, 컴퓨터 그래픽스 분야의 지식이 필요한 쉐이딩(shading) 언어를 알아야 한다. 둘째, GPU를 효율적으로 활용하기 위해 CPU와 GPU간의 데이터 교환을 최소화해야 한다. 이를 위해 CPU는 GPU에서 처리할 수 있는 최대 용량의 데이터를 생성하여 GPU에 전송해야 하기 때문에 CPU에서 많은 처리시간을 소모하며, 이로 인해 CPU와 GPU 사이에 많은 오버헤드가 발생한다. 본 논문에서는 그래픽 하드웨어와 멀티코어(multi-core) CPU를 이용한 빠르고 효율적인 신경망 구현 방법을 제안한다. 기존 GPU의 첫 번째 문제점을 해결하기 위해 제안된 방법은 복잡한 쉐이딩 언어 대신 그래픽스적인 기본지식 없이도 GPU를 이용하여 응용프로그램 개발이 가능한 CUDA를 이용하였다. 두 번째 문제점을 해결하기 위해 멀티코어 CPU에서 공유 메모리 환경의 병렬화를 수행할 수 있는 OpenMP를 이용하였으며, 이는 CPU의 처리시간을 줄여 CPU와 GPU 환경에서 오버헤드를 최소화할 수 있다. 실험에서 제안된 CUDA와 OpenMP기반의 구현 방법을 신경망을 이용한 문자영역 검출 알고리즘에 적용하였으며, CPU에서의 수행시간과 비교하여 약 15배, GPU만을 이용한 수행시간과 비교하여 약 4배정도 빠른 수행시간을 보였다. Many algorithms for computer vision and pattern recognition have recently been implemented on GPU (graphic processing unit) for faster computational times. However, the implementation has two problems. First, the programmer should master the fundamentals of the graphics shadinglanguages that require the prior knowledge on computer graphics. Second, in a job that needs much cooperation between CPU and GPU, which is usual in image processing and pattern recognition contrary to the graphic area, CPU should generate raw feature data for GPU processing as much as possible to effectively utilize GPU performance. This paper proposes more quick and efficient implementation of neural networks on both GPU and multi-core CPU. We use CUDA (compute unified device architecture) that can be easily programmed due to its simple C language-like style instead of GPU to solve the first problem. Moreover, OpenMP (Open Multi-Processing) is used to concurrently process multiple data with single instruction on multi-core CPU, which results in effectively utilizing the memories of GPU. In the experiments, we implemented neural networks-based text extraction system using the proposed architecture, and the computational times showed about 15 times faster than implementation on only GPU without OpenMP.

      • KCI등재

        RANSAC을 이용한 다중 평면 피팅의 효율적인 CUDA 구현

        조태훈 한국정보통신학회 2019 한국정보통신학회논문지 Vol.23 No.4

        As a fiiting method to data with outliers, RANSAC(RANdom SAmple Consensus) based algorithm is widely used in fitting of line, circle, ellipse, etc. CUDA is currently most widely used GPU with massive parallel processing capability. This paper proposes an efficient CUDA implementation of multiple planes fitting using RANSAC with 3d points data, of which one set of 3d points is used for one plane fitting. The performance of the proposed algorithm is demonstrated compared with CPU implementation using both artificially generated data and real 3d heights data of a PCB. The speed-up of the algorithm over CPU seems to be higher in data with lower inlier ratio, more planes to fit, and more points per plane fitting. This method can be easily applied to a wide variety of other fitting applications. 외란(Outlier)이 있는 데이터를 피팅(Fitting)하는 방법으로 RANSAC(RANdom SAmple Consensus)알고리즘이 선, 원, 타원 등 의 피팅에 많이 사용되고 있다. 본 논문은 다수의 평면에 대한 3차원 포인트 데이터가 주어질 때 각 평면에 대해 RANSAC기반 평면 피팅을 최근 딥러닝 등에 많이 사용되는 GPU의 하나인 CUDA를 이용하여 효율적으로 수행하는 알고리즘을 제안한다. 모의 데이터와 실제 데이터를 이용하여 제안된 알고리즘의 성능을 CPU와 비교하여 보인다. 외란이 많고 인라이어(inlier) 비율이 낮을수록 CPU대비 속도가 향상되고 평면의 개수가 많을수록 평면당 데이터개수가 많을수록 병렬처리에 의한 속도가 가속됨을 보인다. 제안된 방법은 다중 평면 피팅외의 다른 피팅에도 쉽게 적용할 수 있다.

      • KCI등재

        DPCM-GR 방식을 이용한 CUDA 기반 초고해상도 게임 영상 무손실 비동기 압축

        김영식(Kim, Youngsik) 한국게임학회 2014 한국게임학회 논문지 Vol.14 No.6

        초고해상도 UHD() 게임 영상의 메모리 대역폭 요구량은 기하급수적으로 늘어난다. 본 논문에서는 화질 저하 없이 메모리 대역폭 문제를 해결하기 위하여 CUDA 환경에서 비트 병렬 파이프라인을 지원하는 논문 [4]의 DDPCM-GR 압축 알고리즘을 변형한 DPCM-GR 방식을 적용한 무손실 압축을 구현하였다. CUDA 공유메모리 사용을 통한 효율성을 증대하였으며, paged-locked 호스트 메모리 비동기 전송을 통한 커널과 데이터 전송 중첩의 다양한 구성을 구현하였다. 실험을 통하여 CPU 방식에 비하여 최대 31.3배 속도 향상을 이루었으며, 비동기 전송 구성의 변화를 통하여 최대 30.3% 수행 시간이 감소하였다. Memory bandwidth requirements of UHD (Ultra High Definition ) game scenes have been much more increasing. This paper presents a lossless DPCM-GR based compression algorithm using CUDA for solving the memory bandwidth problem without sacrificing image quality, which is modified from DDPCM-GR [4] to support bit parallel pipelining. The memory bandwidth efficiency increases because of using the shared memory of CUDA. Various asynchronous transfer configurations which can overlap the kernel execution and data transfer between host and CUDA are implemented with the page-locked host memory. Experimental results show that the maximum 31.3 speedup is obtained according to CPU time. The maximum 30.3% decreases in the computation time among various configurations.

      • KCI등재후보

        GPU를 이용한 Salsa20 스트림 암호의 병렬화

        윤민,한태윤,이문규,오희국 한국차세대컴퓨팅학회 2009 한국차세대컴퓨팅학회 논문지 Vol.5 No.1

        GPU는 높은 연산 성능에 비해 그래픽 처리를 하지 않을 경우에는 유휴상태에 놓여있다. 최근 유휴상태인 GPU를 이용하여 그래프 문제, 대용량 탐색 및 정렬, 행렬 연산 등 다양한 문제들을 병렬처리 하는 GPGPU가 각광받고 있고 NVIDIA사의 CUDA플랫폼의 등장으로 이러한 흐름은 더욱 가속화 되고 있다. GPGPU의 발전에 맞추어 GPU상에서 몇몇의 암호 알고리즘들이 구현되었지만, 스트림 암호의 경우에는 최근에서야 ECRYPT에 의해 표준이 제정되었기 때문에 아직 연구 결과가 미비하다. 이에 본 논문에서는 ECRYPT의 소프트웨어 기반 암호인 Salsa20을 GPU상에서 구현하고 이를 최적화하였으며, 파이프라이닝 기법을 사용하여 성능을 극대화하였다. 본 논문의 실험 결과에 따르면 CUDA를 사용한 Salsa20은 6.2Gbps의 암호화 속도를 보여주어 138.7Mbps의 성능을 보인 CPU상에서의 구현에 비해 무려 45배 이상의 성능 향상을 보여주었다. Recent performance improvements in GPU enabled optimized parallel implementation of various algorithmsincluding graph algorithms, searching and sorting of massive data, matrix operations, and so on. After theadvent of CUDA platform of NVIDIA, more algorithms including several cryptographic algorithms are beingimplemented over GPUs. However, little work has been done on the parallel implementation of stream ciphersbecause it hasn’t been long since the first standard for stream cipher were published by ECRYPT. In thispaper, we provide a parallel implementation of Salsa20 stream cipher, one of the four software-based streamciphers in the ECRYPT standard, over a GPU, and optimize its performance using a pipelining technique.According to our experimental results, the throughput of Salsa20 on the CUDA platform is up to 6.2Gbps,which is approximately 45 times faster than the implementation over a CPU with 138.7Mbps.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼