RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재후보

        작업 처리 단위 변화에 따른 GPU 성능과 메모리 접근 시간의 관계 분석

        손동오,심규연,김철홍,Son, Dong Oh,Sim, Gyu Yeon,Kim, Cheol Hong 한국스마트미디어학회 2015 스마트미디어저널 Vol.4 No.4

        최신 GPU는 프로세서 내부에 포함된 다수의 코어를 활용하여 높은 병렬처리가 가능하다. GPU의 높은 병렬성을 활용하는 기법 중 하나인 GPGPU 구조는 GPU에서 대부분의 CPU의 작업을 처리가 가능하게 해주며, GPU의 높은 병렬성과 하드웨어자원을 효과적으로 활용할 수 있다. 본 논문에서는 다양한 벤치마크 프로그램을 활용하여 CTA(Cooperative Thread Array) 할당 개수 변화에 따른 메모리 효율성과 성능을 분석하고자 한다. 실험결과, CTA 할당 개수 증가에 따라 다수의 벤치마크 프로그램에서 성능이 향상되었지만, 일부 벤치마크 프로그램에서는 CTA 할당 개수 증가에 따른 성능 향상이 발생하지 않았다. 이러한 이유로는 벤치마크 프로그램에서 생성된 CTA 개수가 적거나 동시에 수행할 수 있는 CTA 개수가 정해져 있기 때문으로 판단된다. 또한, 각 벤치마크 프로그램별로 메모리 채널 정체에 따른 메모리 스톨, 내부연결망 정체에 따른 메모리 스톨, 파이프라인의 메모리 단계에서 발생하는 스톨을 분석하여 성능과의 연관성을 파악하였다. 본 연구의 분석결과는 GPGPU 구조의 병렬성 및 메모리 효율성 향상을 위한 연구에 대한 정보로 활용될 것으로 기대된다. Modern GPU can execute mass parallel computation by exploiting many GPU core. GPGPU architecture, which is one of approaches exploiting outstanding computational resources on GPU, executes general-purpose applications as well as graphics applications, effectively. In this paper, we investigate the impact of memory-efficiency and performance according to number of CTAs(Cooperative Thread Array) on a SM(Streaming Multiprocessors), since the analysis of relation between number of CTA on a SM and them provides inspiration for researchers who study the GPU to improve the performance. Our simulation results show that almost benchmarks increasing the number of CTAs on a SM improve the performance. On the other hand, some benchmarks cannot provide performance improvement. This is because the number of CTAs generated from same kernel is a little or the number of CTAs executed simultaneously is not enough. To precisely classify the analysis of performance according to number of CTA on a SM, we also analyze the relations between performance and memory stall, dram stall due to the interconnect congestion, pipeline stall at the memory stage. We expect that our analysis results help the study to improve the parallelism and memory-efficiency on GPGPU architecture.

      • KCI등재

        코어와 L2 캐쉬의 수직적 배치 관계에 따른 3차원 멀티코어 프로세서의 온도 분석

        손동오(Dong-Oh Son),안진우(Jin-Woo Ahn),박재형(Jae-Hyung Park),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2011 韓國컴퓨터情報學會論文誌 Vol.16 No.6

        멀티코어 프로세서를 설계하는데 있어서 구성요소들을 연결하는 와이어 길이의 증가로 인한 지연 현상은 성능향상에 큰 걸림돌이 되고 있다. 멀티코어 프로세서의 와이어 지연 문제를 해결하기 위하여 최근에는 3차원 구조의 멀티코어 프로세서 설계 기술이 많은 주목을 받고 있다. 3차원 구조 멀티코어 프로세서 설계 기술은 코어들을 수직으로 적층함으로써, 물리적인 연결망 길이를 크게 감소시켜 성능향상과 함께 연결망에서 소비되는 전력을 줄일 수 있다. 하지만 많은 전력을 소모하는 회로를 수직으로 적층함으로써 전력밀도가 증가하여 프로세서 내부의 온도가 크게 상승하는 문제를 가지고 있다. 본 논문에서는 3차원 구조 멀티코어 프로세서에서의 발열문제를 해결 할 수 있는 플로어플랜 방법을 제안하기 위해 칩 내부에 적층되는 코어의 수직적 배치 형태를 다양하게 변화시키면서 그에 따른 온도 변화를 살펴보고자 한다. 실험 결과를 통해, 프로세서 내부의 온도 감소를 위해서는 코어와 L2 캐쉬를 수직으로 인접하게 적층함으로써 코어의 온도를 낮추는 기법이 매우 효과적임을 알 수 있다. 코어와 코어가 수직으로 상호 인접하는 플로어플랜과 비교하여, 코어와 L2 캐쉬를 수직으로 인접하게 배치시키는 기법이 4-레이어 구조의 경우에는 평균 22%, 2-레이어 구조의 경우 평균 13%의 온도 감소 효과를 보임을 알 수 있다. In designing multi-core processors, interconnection delay is one of the major constraints in performance improvement. To solve this problem, the 3-dimensional integration technology has been adopted in designing multi-core processors. The 3D multi-core architecture can reduce the physical wire length by stacking cores vertically, leading to reduced interconnection delay and reduced power consumption. However, the power density of 3D multi-core architecture is increased significantly compared to the traditional 2D multi-core architecture, resulting in the increased temperature of the processor. In this paper, the floorplan methods which change the forms of vertical placement of the core and the level-2 cache are analyzed to solve the thermal problems in 3D multi-core processors. According to the experimental results, it is an effective way to reduce the temperature in the processor that the core and the level-2 cache are stacked adjacently. Compared to the floorplan where cores are stacked adjacently to each other, the floorplan where the core is stacked adjacently to the level-2 cache can reduce the temperature by 22% in the case of 4-layers, and by 13% in the case of 2-layers.

      • KCI등재

        GPU 성능향상을 위한 IPC 기반 동적 CTA 스케줄링 기법 연구

        손동오(Dong Oh Son),김종면(Jong Myon Kim),김철홍(Cheol Hong Kim) 한국컴퓨터정보학회 2016 韓國컴퓨터情報學會論文誌 Vol.21 No.2

        Recently, many research groups have focused on GPGPUs in order to improve the performance of computing systems. GPGPUs can execute general-purpose applications as well as graphics applications by using parallel GPU hardware resources. GPGPUs can process thousands of threads based on warp scheduling and CTA scheduling. In this paper, we utilize the traditional CTA scheduler to assign a various number of CTAs to SMs. According to our simulation results, increasing the number of CTAs assigned to the SM statically does not improve the performance. To solve the problem in traditional CTA scheduling schemes, we propose a new IPC-based dynamic CTA scheduling scheme. Compared to traditional CTA scheduling schemes, the proposed dynamic CTA scheduling scheme can increase the GPU performance by up to 13.1%.

      • KCI등재

        재구성 가능한 라스트 레벨 캐쉬 구조를 위한 코어 인지 캐쉬 교체 기법

        손동오(Dong-Oh Son),최홍준(Hong-Jun Choi),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2013 韓國컴퓨터情報學會論文誌 Vol.18 No.11

        멀티코어 프로세서에서 라스트 레벨 캐쉬는 코어와 메모리의 속도 차이를 줄여주는 역할을 하는 중요한 하드웨어 자원이다. 때문에 라스트 레벨 캐쉬의 효율적인 관리는 프로세서의 성능에 큰 영향을 미친다. 라스트 레벨 캐쉬를 구성하는 공유/비공유 캐쉬는 코어들이 공유하는 데이터와 각 코어의 독립된 데이터를 각각 적재한다. 최근 많은 연구를 통해 라스트 레벨 캐쉬 관리기법이 연구되었지만 주로 공유 캐쉬에 대한 연구만 이뤄지고 있으며 라스트 레벨 캐쉬의 비공유 캐쉬에 대한 연구는 아직 미약하다. 라스트 레벨 캐쉬의 비공유 캐쉬는 각 코어에 동일한 영역이 할당되기 때문에 코어별 작업량이 다를 경우 캐쉬 관리가 효과적이지 않다. 본 논문에서는 라스트 레벨 캐쉬 중 비공유 캐쉬의 효율적인 관리를 위해 코어 인지 캐쉬 교체 기법을 제안한다. 제안된 코어 인지 캐쉬 교체 기법은 비공유 캐쉬를 동적으로 재구성함으로써, 라스트 레벨 캐쉬의 적중률을 향상시킨다. 또한, 우리는 캐쉬 교체 기법의 성능 향상을 위해 2비트 포화 카운터를 적용하였다. 실험 결과 기존의 교체 기법과 비교하여 9.23%의 적중률 향상과 12.85%의 라스트 레벨 캐쉬 접근 시간 감소의 효과가 있었다. In multi-core processors, Last Level Cache(LLC) can reduce the speed gap between the memory and the core. For this reason, LLC has big impact on the performance of processors. LLC is composed of shared cache and private cache. In computer architecture community, most researchers have mainly focused on the management techniques for shared cache, while management techniques for private cache have not been widely researched. In conventional private LLC, memory is statically assigned to each core, resulting in serious performance degradation when the workloads are not fairly distributed. To overcome this problem, this paper proposes the replacement policy for managing private cache of LLC efficiently. As proposed core-aware cache replacement policy can reconfigure LLC dynamically, hit rate of LLC is increases drastically. Moreover, proposed policy uses 2-bit saturating counters to improve the performance. According to our simulation results, the proposed method can improve hit rates by 9.23% and reduce the access time by 12.85% compared to the conventional method.

      • KCI등재

        IPC-based Dynamic SM management on GPGPU for Executing AES Algorithm

        Dong Oh Son(손동오),Hong Jun Choi(최홍준),Cheol Hong Kim(김철홍) 한국컴퓨터정보학회 2020 韓國컴퓨터情報學會論文誌 Vol.25 No.2

        최신 GPU는 GPGPU를 활용하여 범용 연산이 가능하다. 뿐만 아니라, GPU는 내장된 다수의 코어를 활용하여 강력한 연산 처리량을 제공한다. AES 알고리즘은 다수의 병렬 연산을 요구하지만 CPU 구조에서는 효율적인 병렬처리가 이뤄지지 않는다. 따라서, 본 논문에서는 강력한 병력 연산 자원을 활용하는 GPGPU 구조에서 AES 알고리즘을 수행함으로써 AES 알고리즘 처리시간을 줄여보았다. 하지만, GPGPU 구조는 AES 알고리즘 같은 암호알고리즘에 최적화되어 있지 않다. 그러므로 AES 알고리즘에 최적화될 수 있도록 재구성 가능한 GPGPU 구조를 제안하고자 한다. 제안된 기법은 SM의 개수를 동적으로 할당하는 IPC 기반 SM 동적 관리 기법이다. IPC 기반 SM 동적 관리 기법은 GPGPU 구조에서 동작하는 AES의 IPC를 실시간으로 반영하여 최적의 SM의 개수를 동적으로 할당한다. 실험 결과에 따르면 제안된 동적 SM 관리 기법은 기존의 GPGPU 구조와 비교하여 하드웨어 자원을 효과적으로 활용하여 성능을 크게 향상시켰다. 일반적인 GPGP 구조와 비교하여, 제안된 기법의 AES의 암호화/복호화는 평균 41.2%의 성능 향상을 보여준다. Modern GPU can execute general purpose computation on the graphic processing unit, and provide high performance by exploiting many core on GPU. To run AES algorithm efficiently, parallel computational resources are required. However, computational resource of CPU architecture are not enough to cryptographic algorithm such as AES whereas GPU architecture has mass parallel computation resources. Therefore, this paper reduce the time to execute AES by employing parallel computational resource on GPGPU. Unfortunately, AES cannot utilize computational resource on GPGPU since it isn’t suitable to GPGPU architecture. In this paper, IPC based dynamic SM management technique are proposed to efficiently execute AES on GPGPU. IPC based dynamic SM management can increase and decrease the number of active SMs by using IPC in run-time. According to simulation results, proposed technique improve the performance by increasing resource utilization compared to baseline GPGPU architecture. The results show that AES improve the performance by 41.2% on average.

      • 구성 요소에 따른 처리 장치의 소모 전력 대비 성능 분석

        손동오(Dong Oh Son),최홍준(Hong Jun Choi),김종면(Jong Myon Kim),김철홍(Cheol Hong Kim) 대한전기학회 2014 정보 및 제어 심포지엄 논문집 Vol.2014 No.10

        Utilizing the GPU, which is a specialized processor originally designed for graphics processing, becomes one of the most popular methods to improve the performance of state-of-the-art computer systems. We analyze the performance and the power consumption of the GPU by executing various benchmark programs to figure out the possible problems in upcoming high-performance computer systems. Our analysis results can provide the guideline to improve performance and power efficiency of heterogeneous computing systems.

      • KCI등재

        스마트폰의 구성 변수에 따른 전력 효율성 분석

        손동오(Dong-Oh Son),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2013 韓國컴퓨터情報學會論文誌 Vol.18 No.5

        스마트폰의 등장과 함께 사용자들은 다양한 애플리케이션을 통해 보다 효율적으로 모바일폰을 구성할 수 있게 되었다. 하지만, 스마트폰의 발전에도 불구하고 스마트폰의 배터리는 휴대성을 제한하고 있다. 스마트폰의 전력 효율성은 컴퓨터 시스템 연구 분야에서 아주 중요한 이슈이다. 본 논문에서는 스마트폰의 전력 효율성을 알아보기 위해 여러 구성 변수를 선택하여 실험을 수행하였다. 구성 변수로는 프로세서, 디스플레이, 운영체제를 고려하였고 각 구성 변수에 따라 여러 개의 애플리케이션을 활용하여 실험하였다. 실험 결과, 프로세서의 복잡도에 따라서도 전력 소비량이 증가하였고, 디스플레이크기 증가에 따라 전력소비량 또한 증가하였다. 하지만, 운영체제에서는 다른 전력 소비 패턴을 보였다. Android 운영체제의 경우 인터넷과 영상처리 애플리케이션에서 높은 전력 소비량을 보이며 음악 감상, 카메라 애플리케이션에서 낮은 전력 소비량을 보였다. iOS의 경우에는 게임과 인터넷 애플리케이션에서 높은 전력 소비량을 보이며 카메라와 영상처리에서 낮은 전력 소비량을 보였다. 전체적으로 Android 운영체제보다 iOS 운영체제에서 전력 효율성이 높음을 알 수 있었다. 이는 iOS는 하드웨어와 운영체제를 병행하여 개발하기 때문에 Android보다 최적화가 잘 이뤄진 것으로 판단된다. 또한, Android는 하드웨어에 최적화된 운영체제 수정이 필요함을 실험을 통해 알 수 있었다. Smartphone enables diverse applications to be used in mobile environments. In spite of the high performance of smartphones, battery life has become one of the major constraints in mobility. Therefore, power efficiency of the smartphone is one of the most important factors in determining the efficiency of the smartphone. In this paper, in order to analyze the power efficiency of the smartphone, we have various experiments according to several configuration parameters such as processor, display and OS. We also use diverse applications. As a result, power consumption is dependent on the processor complexity and display size. However, power consumption shows the unpredictable pattern according to the OS. Smartphone using android OS consumes high power when internet and image processing applications are executed, but It consumes low power when music and camera applications are executed. In contrary, smartphone based on iOS consumes high power when game and internet applications are executed but it consumes low power when camera and processing applications are executed. In general, smartphone using iOS is more power efficient than smartphone based on android OS, because smartphone using iOS is optimized in the perspective of the hardware and OS.

      • TLB 구조에 따른 3차원 멀티코어 프로세서의 성능, 온도 분석

        손동오(Dong Oh Son),최홍준(Hong Jun Choi),김철홍(Cheol Hong Kim) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1B

        3차원 멀티코어 프로세서는 기존의 멀티코어 프로세서에서 문제가 되던 연결망 지연시간과 전력문제를 해결할 수 있는 새로운 프로세서 설계기술이다. 하지만, 전력밀도의 증가로 인해 발생하는 열섬현상은 3차원 멀티코어 프로세서의 새로운 문제점으로 두드러지고 있다. 이러한 문제를 해결하기 위해서 동적 온도 관리 기법이 사용되지만, 동적 온도 관리 기법을 적용하면 시스템에 성능 저하가 발생하게 된다. 따라서 본 논문에서는 3차원 멀티코어 프로세서에서 문제가 되는 열섬현상을 해결하기 위해 고온의 유닛을 대상으로 동적 온도 관리 기법을 적용하고자 한다. 실험대상으로는 시스템 성능에 많은 영향을 미치고 높은 접근 때문에 고온이 발생하는 TLB 유닛을 사용하고자 한다. 특히, 시스템의 성능 저하를 줄이기 위해서 기존의 시스템보다 낮은 성능을 보이는 마이크로 TLB 구조를 적용해 보고자 한다. 성능이 낮은 구조의 경우 일반적으로 더 낮은 온도 분포를 보이며 동적 온도 관리 기법에 영향을 덜 받기 때문에 동적 온도 관리 기법만 적용한 구조보다 더 낮은 성능 저하를 보일 수 있다. 실험결과 동적 온도 관리 기법을 적용한 경우 기존의 시스템에 비해 23.4%의 성능 저하가 발생하고 마이크로 TLB 구조를 적용한 경우 27.1%의 성능 저하가 발생함을 알 수 있다.

      • KCI등재

        코어 내부 구성요소와 L2 캐쉬의 배치 관계에 따른 멀티코어 프로세서의 온도 분석

        손동오(Dong-Oh Son),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2014 韓國컴퓨터情報學會論文誌 Vol.19 No.4

        멀티코어 프로세서는 여러 개의 코어가 하나의 칩에 배치됨에 따라 전력 밀도가 상승하여 높은 발열이 발생한다. 이러한 발열 문제를 해결하기 위해서 최근까지 다양한 연구가 진행되고 있다. 마이크로프로세서의 온도 감소를 위한 기법으로는 기계적 냉각 기법, 동적 온도 관리 기법 등이 있지만 이러한 기법들은 추가적인 냉각 비용이 발생하거나 성능의 저하가 발생한다. 플로어플랜기법은 추가적인 냉각비용이 발생하지 않으며, 성능저하가 거의 발생하지 않는다는 장점을 지닌다. 본 논문에서는 멀티코어 프로세서의 특정 구성요소의 발열 문제를 해결하기 위해 코어 내부 구성요소와 L2 캐쉬의 다양한 플로어플랜을 활용하고자 한다. 실험 결과, 코어의 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치할 경우 칩의 온도 감소에 매우 효과적임을 알 수 있다. 코어를 캐쉬 상단-가운데 배치하는 기본 플로어플랜과 비교하여, 코어를 중앙에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 8.04?C, 코어를 외곽에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 8.05?C의 최고온도 감소 효과를 보임을 알 수 있다. As cores in multi-core processors are integrated in a single chip, power density increased considerably, resulting in high temperature. For this reason, many research groups have focused on the techniques to solve thermal problems. In general, the approaches using mechanical cooling system or DTM(Dynamic Thermal Management) have been used to reduce the temperature in the microprocessors. However, existing approaches cannot solve thermal problems due to high cost and performance degradation. However, floorplan scheme does not require extra cooling cost and performance degradation. In this paper, we propose the diverse floorplan schemes in order to alleviate the thermal problem caused by the hottest unit in multi-core processors. Simulation results show that the peak temperature can be reduced efficiently when the hottest unit is located near to L2 cache. Compared to baseline floorplan, the peak temperature of core-central and core-edge are decreased by 8.04?C, 8.05?C on average, respectively.

      • KCI등재

        캐쉬 구성에 따른 3차원 쿼드코어 프로세서의 성능 및 온도 분석

        김철홍(Dong-Oh Son),김종면(Jin-Woo Ahn),최홍준(Hong-Jun Choi),안진우(Jong-Myon Kim),손동오(Cheol-Hong Kim) 한국컴퓨터정보학회 2012 韓國컴퓨터情報學會論文誌 Vol.17 No.6

        공정기술이 지속적으로 발달함에 따라 멀티코어 프로세서는 성능 향상이라는 장점과 함께 내부 연결망의 긴 지연 시간, 높은 전력 소모, 그리고 발열 현상 등의 문제점들을 내포하고 있다. 이와 같은 2차원 멀티코어 프로세서의 문제점들을 해결하기 위한 방안 중 하나로 3차원 멀티코어 프로세서 구조가 주목을 받고 있다. 3차원 멀티코어 프로세서는 TSV를 이용하여 수직으로 쌓은 여러 개의 레이어들을 연결함으로써 2차원 멀티코어 프로세서와 비교하여 배선 길이를 크게 줄일 수 있다. 하지만, 3차원 멀티코어 프로세서에서는 여러 개의 코어들이 수직으로 적층되므로 전력밀도가 증가하고, 이로 인해 발열문제가 발생하여 높은 냉각 비용과 함께 신뢰성에 부정적인 영향을 유발한다. 따라서 3차원 멀티코어 프로세서를 설계할 때에는 성능과 함께 온도를 반드시 고려하여야 한다. 본 논문에서는 캐쉬 구성에 따른 3차원 쿼드코어 프로세서의 온도를 상세히 분석하고, 이를 기반으로 발열문제를 해결하기 위해저온도 캐쉬 구성 방식을 제안하고자 한다. 실험결과, 명령어 캐쉬는 최고온도가 임계값보다 낮고 데이터 캐쉬는 많은 웨이를 가지는 구성을 적용할 때 최고온도가 임계값보다 높아짐을 알 수 있다. 또한, 본 논문에서 제안하는 캐쉬구성은 쿼드코어 프로세서를 사용하는 3차원 구조에서 캐쉬의 온도 감소에 효과적일 뿐만 아니라 성능 저하 또한 거의 없음을 알 수 있다. As the process technology scales down, multi-core processors cause serious problems such as increased interconnection delay, high power consumption and thermal problems. To solve the problems in 2D multi-core processors, researchers have focused on the 3D multi-core processor architecture. Compared to the 2D multi-core processor, the 3D multi-core processor decreases interconnection delay by reducing wire length significantly, since each core on different layers is connected using vertical through-silicon via(TSV). However, the power density in the 3D multi-core processor is increased dramatically compared to that in the 2D multi-core processor, because multiple cores are stacked vertically. Unfortunately, increased power density causes thermal problems, resulting in high cooling cost, negative impact on the reliability. Therefore, temperature should be considered together with performance in designing 3D multi-core processors. In this work, we analyze the temperature of the cache in quad-core processors varying cache organization. Then, we propose the low-temperature cache organization to overcome the thermal problems. Our evaluation shows that peak temperature of the instruction cache is lower than threshold. The peak temperature of the data cache is higher than threshold when the cache is composed of many ways. According to the results, our proposed cache organization not only efficiently reduces the peak temperature but also reduces the performance degradation for 3D quad-core processors.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼