RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        가상 동기화 기법을 이용한 SystemC 통합시뮬레이션의 병렬 수행

        이영민(Youngmin Yi),권성남(Seongnam Kwon),하순회(Soonhoi Ha) 한국정보과학회 2006 정보과학회논문지 : 시스템 및 이론 Vol.33 No.11·12

        이 논문에서는 여러 개의 소프트웨어 혹은 하드웨어 컴포넌트가 존재하는 MPSoC(Multiprocessor-System-on-a-chip) 아키텍처를 빠르면서도 정확하게 통합시뮬레이션 하는 내용을 다룬다. 복잡한 시스템을 설계하기 위해서 MPSoC 아키텍처가 점점 일반화되고 있는데, 이러한 아키텍처를 통합시뮬레이션 할 때는 시뮬레이터의 개수가 증가하고 그에 따라 시뮬레이터들 간의 시간 동기화 비용도 증가하므로 전체적인 통합시뮬레이션 성능이 감소된다. 최근의 통합시뮬레이션 연구들에 의해서 등장한 SystemC 통합시뮬레이션 환경이 빠른 성능을 보이고 있으나, 시뮬레이터의 개수가 증가할수록 성능은 반비례한다. 본 논문에서는 효율적인 시간동기를 통해 통합시뮬레이션의 성능을 증가시키는 기법인 가상동기화 기법을 확장하여, (1) SystemC 커널을 수정하지 않고도 가상 동기화 기법을 적용한 SystemC 통합시뮬레이션을 수행할 수 있고, (2) 병렬적으로 가상동기화 기법을 수행할 수 있게 하였다. 이를 통해 SystemC 통합시뮬레이션의 병렬적인 수행이 가능해졌는데, 널리 알려진 상용 SystemC 통합시뮬레이션 도구인 MaxSim과 비교하였을 때, H.263 디코더 예제의 경우 11배 이상의 성능 증가를 얻었고 정확도는 5% 이내로 유지되었다. This paper concerns fast and time accurate HW/SW cosimulation for MPSoC (Multi-Processor System-on-chip) architecture where multiple software and/or hardware components exist. It is becoming more and more common to use MPSoC architecture to design complex embedded systems. In cosimulation of such architecture, as the number of the component simulators participating in the cosimulation increases, the time synchronization overhead among simulators increases, thereby resulting in low overall cosimulation performance. Although SystemC cosimulation frameworks show high cosimulation performance, it is in inverse proportion to the number of simulators. In this paper, we extend the novel technique, called virtual synchronization, which boosts cosimulation speed by reducing time synchronization overhead: (1) SystemC simulation is supported seamlessly in the virtual synchronization framework without requiring the modification on SystemC kernel (2) Parallel execution of component simulatorswith virtual synchronization is supported. We compared the performance and accuracyof the proposed parallel SystemC cosimulation framework with MaxSim, a well-known commercial SystemC cosimulation framework, and the proposed one showed 11 times faster performance for H.263 decoder example, while the accuracy was maintained below 5%.

      • KCI등재

        CUDA를 이용한 PCA 기반 얼굴인식의 가속

        이영민(Youngmin Yi) 한국정보과학회 2013 정보과학회논문지 : 시스템 및 이론 Vol.40 No.1

        얼굴인식은 보안 등 다수의 응용분야에서 중요하게 이용되는데, 얼굴인식을 위한 학습은 많은 계산시간이 소요된다. 따라서, 인식율을 높이기 위해 많은 이미지들을 학습하거나 높은 해상도의 이미지를 대상으로 학습할 때 가속화가 필요하다. 한편, 최근 폭넓은 분야에서 널리 이용되고 있는 그래픽스 프로세싱 유닛(GPU)은 대용량 정보처리를 빠르게 수행할 수 있어 고해상도 대용량 이미지들에 대해서도 빠른 인식이 가능하다. 본 논문에서는 주성분 분석(PCA) 기반의 얼굴인식 알고리즘의 병렬성을 분석하고 이를 GPU에서 효율적으로 병렬 수행하기 위한 방법을 제안하였다. C/OpenCV로 구현된 순차적인 버전과 비교했을 때, CUDA로 구현한 얼굴인식기는 전체 학습 시스템에서 최대 약 40배의 성능이득을 얻었다. Face recognition is important in many applications including surveillance, biometrics, and other domains and fast face recognition is required if she wants to train and test more images or to increase the resolution of an input image for better accuracy in recognition. Meanwhile, Graphics Processing Units (GPUs) have become widely available, offering the opportunity for real-time face recognition even for larger set of images with high resolution. In this paper, we explore the design space of parallelizing a PCA (Principal Components Analysis) based face recognition algorithm and propose a fast face recognizer on GPUs by exploiting the fine-grained data-parallelism found in the face recognition algorithm. Our best results with the CUDA face recognizer show over 40-fold speedups compared to a sequential C implementation.

      • GPU 기반 병렬 H.264 인코더

        이영민(Youngmin Yi),이청용(Chungyong Lee) 대한전기학회 2010 정보 및 제어 심포지엄 논문집 Vol.2010 No.10

        H.264 비디오 인코딩은 동영상을 압축하는 표준알고리즘로서, 디지털방송, 화상전화, IPTV 등에 광범위하게 사용된다. 갈수록 고해상도의 동영상이 보편화됨에 따라 H.264 비디오 인코딩에서 요구되는 계산량이 계속 증가하고 있는데, CPU만으로는 주어진 제약시간에 맞추어 비디오 인코딩을 완료하기 어려운 경우가 많다. 이를 해결하기 위해서는 CPU 외에 별도의 가속기가 사용되는데, 기존에는 하드웨어 가속기를 주로 사용하였다. 하지만 하드웨어 가속기를 통한 비디오 인코딩은 새로운 알고리듬의 추가가 쉽지 않고, 설계의 변경에 많은 비용이 드는 문제가 존재한다. 한편, 2007년부터 그래픽처리 전용 가속기로서의 GPU(Graphics Processor Unit)가 C의 확장인 CUDA언어를 통해서 범용으로 활용될 수 있게 되었다. GPU를 활용한 가속은 하드웨어 가속기와 달리 프로그램으로 구현되기 때문에 새로운 알고리듬의 추가 및 설계 변경이 용이하고, off-the-shelf GPU를 활용하기 때문에 비용이 비교적 저렴하다. 본 논문에서는 H.264 비디오인코딩을 GPU에서 CUDA를 사용하여 설계 구현함으로써, H.264 인코딩이 GPU를 통해 얼마나 가속되는지를 확인한다.

      • GPU를 통한 얼굴인식 가속화

        이청용(Cheongyong YI),이영민(Youngmin YI) 한국정보과학회 2012 한국정보과학회 학술발표논문집 Vol.39 No.1A

        얼굴인식은 보안 등 다수의 응용분야에서 중요하게 이용되는데, 얼굴인식을 위한 학습은 많은 계산시간이 소요되기 때문에 신속한 학습이 필요한 경우 가속화가 필요하다. 한편, 그래픽스 프로세서 유닛(GPU)은 대용량 정보처리를 빠르게 수행 할 수 있어 최근 폭넓은 분야에서 널리 이용되고 있다. 본 논문에서는 주성분 기반의 얼굴인식 알고리즘을 GPU 에서 병렬 수행하여 가속하는 기법을 제안하였다. 주성분 기반의 얼굴인식 각각의 과정들의 병렬성을 분석하여 가속화 이득을 최대하였고, C/OpenCV[2]로 구현된 순차적인 버전[3]과 비교했을 때, 전체 학습 시스템에서 최대 약 40 배의 성능이득을 얻었다.

      • KCI등재

        임베디드 GPU에서 OpenCL을 사용한 효율적인 지역적 이진 패턴 기반 얼굴인식

        이새한슬(Sae-han-seul Yi),우영상(Youngsang Woo),장병남(Byungnam Jang),이영민(Youngmin Yi) 한국정보과학회 2013 정보과학회논문지 : 시스템 및 이론 Vol.40 No.6

        최근 임베디드 GPU가 OpenCL 프레임워크를 지원하기 시작하면서, 임베디드 GPU도 GPGPU로 수행을 할 수 있게 되었다. 그러나, 임베디드 GPU는 제한된 수의 프로세싱 코어를 탑재하고 있기 때문에, 최적의 성능을 얻기 위해서는 멀티코어 CPU와 임베디드 GPU를 모두 활용해야 한다. 한편, 얼굴인식은 많은 응용에서 중요해지고 있는데, 보다 정확한 인식을 위해서는 실시간에 더 많은 계산을 해야 한다. 본 논문에서는, 널리 알려진 얼굴인식 알고리즘인 지역적 이진패턴 기반의 얼굴 인식기를 OpenCL을 사용하여 임베디드 GPU에서 가속한 결과를 제시한다. ARM Cortex-A15 듀얼코어 CPU와 ARM Mali쿼드코어 GPU가 하나의 칩으로 구성된 Exynos 5250 시스템에서 가속했고, 태스크 병렬성과 데이터 병렬성을 모두 활용한 병렬화 방안들을 살펴보았다. 단일 쓰레드로 수행하는 CPU 구현에 비해서, 수행시간은 최대 7.5배까지 줄어들었고, 이에 따라 에너지 사용량도 최대 7.0배까지 줄어들었다. 본 논문은 OpenCL을 사용하여 지역적 이진 패턴 기반 얼굴인식을 가속한 최초의 논문이자, Mali GPU에서 OpenCL을 사용한 병렬화에 대한 최초의 논문이다. Recently, embedded Graphics Processing Units (GPUs) have started to support OpenCL framework which enables general-purpose computing on a GPU (GPGPU). However, the current embedded GPUs usually have a limited number of cores. To achieve better performance in such a system, it is essential to utilize both the multi-core CPU and the GPU at the same time. On the other hand, face recognition is becoming popular in many applications, demanding more computation for higher recognition accuracy in real-time. In this paper, we present an efficient Local Binary Pattern (LBP) based face recognizer implemented using OpenCL on an embedded GPU. We explored different parallelization strategies exploiting both task-parallelism and data-parallelism on a heterogeneous embedded system, Exynos 5250: a system with a dual-core ARM Cortex-A15 CPU and a quad-core ARM Mali GPU. The experimental results show 7.5 times speedup compared to a single threaded CPU execution, and 7.0 times smaller energy consumption. To the best of our knowledge, this is the first work that presents the acceleration of LBP-based face recognition using OpenCL, and more importantly the first work that reports the performance of Mali GPU as a GPGPU using OpenCL.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼