RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재후보

        작업 처리 단위 변화에 따른 GPU 성능과 메모리 접근 시간의 관계 분석

        손동오,심규연,김철홍,Son, Dong Oh,Sim, Gyu Yeon,Kim, Cheol Hong 한국스마트미디어학회 2015 스마트미디어저널 Vol.4 No.4

        최신 GPU는 프로세서 내부에 포함된 다수의 코어를 활용하여 높은 병렬처리가 가능하다. GPU의 높은 병렬성을 활용하는 기법 중 하나인 GPGPU 구조는 GPU에서 대부분의 CPU의 작업을 처리가 가능하게 해주며, GPU의 높은 병렬성과 하드웨어자원을 효과적으로 활용할 수 있다. 본 논문에서는 다양한 벤치마크 프로그램을 활용하여 CTA(Cooperative Thread Array) 할당 개수 변화에 따른 메모리 효율성과 성능을 분석하고자 한다. 실험결과, CTA 할당 개수 증가에 따라 다수의 벤치마크 프로그램에서 성능이 향상되었지만, 일부 벤치마크 프로그램에서는 CTA 할당 개수 증가에 따른 성능 향상이 발생하지 않았다. 이러한 이유로는 벤치마크 프로그램에서 생성된 CTA 개수가 적거나 동시에 수행할 수 있는 CTA 개수가 정해져 있기 때문으로 판단된다. 또한, 각 벤치마크 프로그램별로 메모리 채널 정체에 따른 메모리 스톨, 내부연결망 정체에 따른 메모리 스톨, 파이프라인의 메모리 단계에서 발생하는 스톨을 분석하여 성능과의 연관성을 파악하였다. 본 연구의 분석결과는 GPGPU 구조의 병렬성 및 메모리 효율성 향상을 위한 연구에 대한 정보로 활용될 것으로 기대된다. Modern GPU can execute mass parallel computation by exploiting many GPU core. GPGPU architecture, which is one of approaches exploiting outstanding computational resources on GPU, executes general-purpose applications as well as graphics applications, effectively. In this paper, we investigate the impact of memory-efficiency and performance according to number of CTAs(Cooperative Thread Array) on a SM(Streaming Multiprocessors), since the analysis of relation between number of CTA on a SM and them provides inspiration for researchers who study the GPU to improve the performance. Our simulation results show that almost benchmarks increasing the number of CTAs on a SM improve the performance. On the other hand, some benchmarks cannot provide performance improvement. This is because the number of CTAs generated from same kernel is a little or the number of CTAs executed simultaneously is not enough. To precisely classify the analysis of performance according to number of CTA on a SM, we also analyze the relations between performance and memory stall, dram stall due to the interconnect congestion, pipeline stall at the memory stage. We expect that our analysis results help the study to improve the parallelism and memory-efficiency on GPGPU architecture.

      • GPU 클러스터 내부 코어 개수에 따른 범용 계산 효율성 분석

        손동오,김종면,김철홍 한국공학안전보건예술학회 2015 한국공학예술학회 논문지 Vol.7 No.1

        컴퓨터 성능이 점차 향상됨에 따라 사용자의 요구사항 또한 점차적으로 높아지고 있다. 최근에는 GPU의 여유로운 자원 이나 강력한 계산능력을 그래픽 작업뿐만 아니라 다양한 분야에 활용하기 위한 GPGPU (General-Purpose computing on Graphics Processing Units) 개발이 많은 관심을 받고 있다. 본 논문에서는 GPU 클러스터에 할당된 코어 개수를 다양하게 변경하여 GPU 코어 개수에 따른 GPGPU 성능을 분석하였다. 실험결과, 대부분의 벤치마크 프로그램에서는 GPU 코어 증 가에 따라 연산 자원의 증가로 인한 성능이 증가하지만, 특정 벤치마크 프로그램에서는 GPU 코어 증가에 따라 성능 감소 가 발생한다. 분석결과, GPU 코어 증가에 따라 성능이 감소하는 벤치마크 프로그램은 GPU 코어 개수가 증가에 따른 연산 자원 증가 이점을 잘 활용하지 못하며, 오히려 메모리 충돌에 따른 성능 감소가 큰 것으로 분석된다. 본 연구의 결과를 활 용한다면 GPGPU구조의 병렬성 향상을 위한 기초 연구에 활용 될 것으로 예상된다. Recently, GPGPU (General-Purpose computing on Graphics Processing Units) draws quite attention, since it can provide powerful computing capability of the GPU in executing general-purpose applications as well as graphics applications. Many studies utilizing parallel processing power of the GPU have been proposed in order to improve the performance of recent microprocessors. The GPGPU structure to take advantage of highly parallel processing capability can satisfy the performance requirements to the GPU. In this paper, we analyze the efficiency of the GPGPU varying the number of cores assigned to the GPU cluster. Simulation results show that the performance improves as the number of cores on the GPU cluster increases. However, in some benchmarks, the performance decreases as the number of cores on the GPU cluster increases, due to memory conflicts.

      • KCI등재

        GPU 성능향상을 위한 IPC 기반 동적 CTA 스케줄링 기법 연구

        손동오(Dong Oh Son),김종면(Jong Myon Kim),김철홍(Cheol Hong Kim) 한국컴퓨터정보학회 2016 韓國컴퓨터情報學會論文誌 Vol.21 No.2

        Recently, many research groups have focused on GPGPUs in order to improve the performance of computing systems. GPGPUs can execute general-purpose applications as well as graphics applications by using parallel GPU hardware resources. GPGPUs can process thousands of threads based on warp scheduling and CTA scheduling. In this paper, we utilize the traditional CTA scheduler to assign a various number of CTAs to SMs. According to our simulation results, increasing the number of CTAs assigned to the SM statically does not improve the performance. To solve the problem in traditional CTA scheduling schemes, we propose a new IPC-based dynamic CTA scheduling scheme. Compared to traditional CTA scheduling schemes, the proposed dynamic CTA scheduling scheme can increase the GPU performance by up to 13.1%.

      • KCI등재

        재구성 가능한 라스트 레벨 캐쉬 구조를 위한 코어 인지 캐쉬 교체 기법

        손동오(Dong-Oh Son),최홍준(Hong-Jun Choi),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2013 韓國컴퓨터情報學會論文誌 Vol.18 No.11

        멀티코어 프로세서에서 라스트 레벨 캐쉬는 코어와 메모리의 속도 차이를 줄여주는 역할을 하는 중요한 하드웨어 자원이다. 때문에 라스트 레벨 캐쉬의 효율적인 관리는 프로세서의 성능에 큰 영향을 미친다. 라스트 레벨 캐쉬를 구성하는 공유/비공유 캐쉬는 코어들이 공유하는 데이터와 각 코어의 독립된 데이터를 각각 적재한다. 최근 많은 연구를 통해 라스트 레벨 캐쉬 관리기법이 연구되었지만 주로 공유 캐쉬에 대한 연구만 이뤄지고 있으며 라스트 레벨 캐쉬의 비공유 캐쉬에 대한 연구는 아직 미약하다. 라스트 레벨 캐쉬의 비공유 캐쉬는 각 코어에 동일한 영역이 할당되기 때문에 코어별 작업량이 다를 경우 캐쉬 관리가 효과적이지 않다. 본 논문에서는 라스트 레벨 캐쉬 중 비공유 캐쉬의 효율적인 관리를 위해 코어 인지 캐쉬 교체 기법을 제안한다. 제안된 코어 인지 캐쉬 교체 기법은 비공유 캐쉬를 동적으로 재구성함으로써, 라스트 레벨 캐쉬의 적중률을 향상시킨다. 또한, 우리는 캐쉬 교체 기법의 성능 향상을 위해 2비트 포화 카운터를 적용하였다. 실험 결과 기존의 교체 기법과 비교하여 9.23%의 적중률 향상과 12.85%의 라스트 레벨 캐쉬 접근 시간 감소의 효과가 있었다. In multi-core processors, Last Level Cache(LLC) can reduce the speed gap between the memory and the core. For this reason, LLC has big impact on the performance of processors. LLC is composed of shared cache and private cache. In computer architecture community, most researchers have mainly focused on the management techniques for shared cache, while management techniques for private cache have not been widely researched. In conventional private LLC, memory is statically assigned to each core, resulting in serious performance degradation when the workloads are not fairly distributed. To overcome this problem, this paper proposes the replacement policy for managing private cache of LLC efficiently. As proposed core-aware cache replacement policy can reconfigure LLC dynamically, hit rate of LLC is increases drastically. Moreover, proposed policy uses 2-bit saturating counters to improve the performance. According to our simulation results, the proposed method can improve hit rates by 9.23% and reduce the access time by 12.85% compared to the conventional method.

      • 냉각에 따른 그래픽 프로세서의 온도 및 소비 전력 분석

        손동오(DongOh Son),전형규(SeYoon Joo),최홍준(HyungGue Jeon),김철홍(CheolHong Kim) 한국컴퓨터정보학회 2012 한국컴퓨터정보학회 학술발표논문집 Vol.20 No.2

        프로세서 설계 기술의 발달로 인해 그래픽 프로세서 또한 기술적으로 크게 발전하였다. 그래픽 프로세서는 단순한 그래픽 표현장치에서 대용량의 데이터를 병렬로 처리하는 고성능 장치로 변화하고 있다. 뿐만 아니라 그래픽 프로세서는 대용량의 데이터처리가 가능한 병렬 프로세서로 특화되어 있기 때문에 이를 활용하여 CPU의 작업을 보조하며 빠른 연산 수행을 가능하게 한다. 이로 인해, 최신의 고성능 시스템 설계에서 그래픽 프로세서는 매우 중요한 역할을 한다. 그래픽 프로세서를 활용하는 고성능의 시스템을 설계하기 위해서는 발열과 소비 전력을 고려해야 한다. 본 논문에서는 그래픽 프로세서의 온도를 제어하는 냉각팬의 세기를 조절하여 그에 따른 온도와 소비 전력을 분석한다. 실험 결과 냉각팬 세기가 낮은 경우 그래픽 프로세서의 온도는 100?C까지 급격히 상승한다. 냉각팬 세기가 높은 경우 그래픽 프로세서의 온도는 천천히 증가하여 일정 온도에 수렴함을 알 수 있다. 또한, 그래픽 프로세서의 소비 전력은 작업량을 할당하지 않았을 때보다 최대작업량을 할당하였을 때 냉각팬 세기에 따른 소비전력 차이가 큼을 알 수 있다.

      • 구성 요소에 따른 처리 장치의 소모 전력 대비 성능 분석

        손동오(Dong Oh Son),최홍준(Hong Jun Choi),김종면(Jong Myon Kim),김철홍(Cheol Hong Kim) 대한전기학회 2014 정보 및 제어 심포지엄 논문집 Vol.2014 No.10

        Utilizing the GPU, which is a specialized processor originally designed for graphics processing, becomes one of the most popular methods to improve the performance of state-of-the-art computer systems. We analyze the performance and the power consumption of the GPU by executing various benchmark programs to figure out the possible problems in upcoming high-performance computer systems. Our analysis results can provide the guideline to improve performance and power efficiency of heterogeneous computing systems.

      • KCI등재

        코어 내부 구성요소와 L2 캐쉬의 배치 관계에 따른 멀티코어 프로세서의 온도 분석

        손동오(Dong-Oh Son),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2014 韓國컴퓨터情報學會論文誌 Vol.19 No.4

        멀티코어 프로세서는 여러 개의 코어가 하나의 칩에 배치됨에 따라 전력 밀도가 상승하여 높은 발열이 발생한다. 이러한 발열 문제를 해결하기 위해서 최근까지 다양한 연구가 진행되고 있다. 마이크로프로세서의 온도 감소를 위한 기법으로는 기계적 냉각 기법, 동적 온도 관리 기법 등이 있지만 이러한 기법들은 추가적인 냉각 비용이 발생하거나 성능의 저하가 발생한다. 플로어플랜기법은 추가적인 냉각비용이 발생하지 않으며, 성능저하가 거의 발생하지 않는다는 장점을 지닌다. 본 논문에서는 멀티코어 프로세서의 특정 구성요소의 발열 문제를 해결하기 위해 코어 내부 구성요소와 L2 캐쉬의 다양한 플로어플랜을 활용하고자 한다. 실험 결과, 코어의 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치할 경우 칩의 온도 감소에 매우 효과적임을 알 수 있다. 코어를 캐쉬 상단-가운데 배치하는 기본 플로어플랜과 비교하여, 코어를 중앙에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 8.04?C, 코어를 외곽에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 8.05?C의 최고온도 감소 효과를 보임을 알 수 있다. As cores in multi-core processors are integrated in a single chip, power density increased considerably, resulting in high temperature. For this reason, many research groups have focused on the techniques to solve thermal problems. In general, the approaches using mechanical cooling system or DTM(Dynamic Thermal Management) have been used to reduce the temperature in the microprocessors. However, existing approaches cannot solve thermal problems due to high cost and performance degradation. However, floorplan scheme does not require extra cooling cost and performance degradation. In this paper, we propose the diverse floorplan schemes in order to alleviate the thermal problem caused by the hottest unit in multi-core processors. Simulation results show that the peak temperature can be reduced efficiently when the hottest unit is located near to L2 cache. Compared to baseline floorplan, the peak temperature of core-central and core-edge are decreased by 8.04?C, 8.05?C on average, respectively.

      • KCI등재

        스마트폰의 구성 변수에 따른 전력 효율성 분석

        손동오(Dong-Oh Son),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2013 韓國컴퓨터情報學會論文誌 Vol.18 No.5

        스마트폰의 등장과 함께 사용자들은 다양한 애플리케이션을 통해 보다 효율적으로 모바일폰을 구성할 수 있게 되었다. 하지만, 스마트폰의 발전에도 불구하고 스마트폰의 배터리는 휴대성을 제한하고 있다. 스마트폰의 전력 효율성은 컴퓨터 시스템 연구 분야에서 아주 중요한 이슈이다. 본 논문에서는 스마트폰의 전력 효율성을 알아보기 위해 여러 구성 변수를 선택하여 실험을 수행하였다. 구성 변수로는 프로세서, 디스플레이, 운영체제를 고려하였고 각 구성 변수에 따라 여러 개의 애플리케이션을 활용하여 실험하였다. 실험 결과, 프로세서의 복잡도에 따라서도 전력 소비량이 증가하였고, 디스플레이크기 증가에 따라 전력소비량 또한 증가하였다. 하지만, 운영체제에서는 다른 전력 소비 패턴을 보였다. Android 운영체제의 경우 인터넷과 영상처리 애플리케이션에서 높은 전력 소비량을 보이며 음악 감상, 카메라 애플리케이션에서 낮은 전력 소비량을 보였다. iOS의 경우에는 게임과 인터넷 애플리케이션에서 높은 전력 소비량을 보이며 카메라와 영상처리에서 낮은 전력 소비량을 보였다. 전체적으로 Android 운영체제보다 iOS 운영체제에서 전력 효율성이 높음을 알 수 있었다. 이는 iOS는 하드웨어와 운영체제를 병행하여 개발하기 때문에 Android보다 최적화가 잘 이뤄진 것으로 판단된다. 또한, Android는 하드웨어에 최적화된 운영체제 수정이 필요함을 실험을 통해 알 수 있었다. Smartphone enables diverse applications to be used in mobile environments. In spite of the high performance of smartphones, battery life has become one of the major constraints in mobility. Therefore, power efficiency of the smartphone is one of the most important factors in determining the efficiency of the smartphone. In this paper, in order to analyze the power efficiency of the smartphone, we have various experiments according to several configuration parameters such as processor, display and OS. We also use diverse applications. As a result, power consumption is dependent on the processor complexity and display size. However, power consumption shows the unpredictable pattern according to the OS. Smartphone using android OS consumes high power when internet and image processing applications are executed, but It consumes low power when music and camera applications are executed. In contrary, smartphone based on iOS consumes high power when game and internet applications are executed but it consumes low power when camera and processing applications are executed. In general, smartphone using iOS is more power efficient than smartphone based on android OS, because smartphone using iOS is optimized in the perspective of the hardware and OS.

      • KCI등재

        코어와 L2 캐쉬의 수직적 배치 관계에 따른 3차원 멀티코어 프로세서의 온도 분석

        손동오(Dong-Oh Son),안진우(Jin-Woo Ahn),박재형(Jae-Hyung Park),김종면(Jong-Myon Kim),김철홍(Cheol-Hong Kim) 한국컴퓨터정보학회 2011 韓國컴퓨터情報學會論文誌 Vol.16 No.6

        멀티코어 프로세서를 설계하는데 있어서 구성요소들을 연결하는 와이어 길이의 증가로 인한 지연 현상은 성능향상에 큰 걸림돌이 되고 있다. 멀티코어 프로세서의 와이어 지연 문제를 해결하기 위하여 최근에는 3차원 구조의 멀티코어 프로세서 설계 기술이 많은 주목을 받고 있다. 3차원 구조 멀티코어 프로세서 설계 기술은 코어들을 수직으로 적층함으로써, 물리적인 연결망 길이를 크게 감소시켜 성능향상과 함께 연결망에서 소비되는 전력을 줄일 수 있다. 하지만 많은 전력을 소모하는 회로를 수직으로 적층함으로써 전력밀도가 증가하여 프로세서 내부의 온도가 크게 상승하는 문제를 가지고 있다. 본 논문에서는 3차원 구조 멀티코어 프로세서에서의 발열문제를 해결 할 수 있는 플로어플랜 방법을 제안하기 위해 칩 내부에 적층되는 코어의 수직적 배치 형태를 다양하게 변화시키면서 그에 따른 온도 변화를 살펴보고자 한다. 실험 결과를 통해, 프로세서 내부의 온도 감소를 위해서는 코어와 L2 캐쉬를 수직으로 인접하게 적층함으로써 코어의 온도를 낮추는 기법이 매우 효과적임을 알 수 있다. 코어와 코어가 수직으로 상호 인접하는 플로어플랜과 비교하여, 코어와 L2 캐쉬를 수직으로 인접하게 배치시키는 기법이 4-레이어 구조의 경우에는 평균 22%, 2-레이어 구조의 경우 평균 13%의 온도 감소 효과를 보임을 알 수 있다. In designing multi-core processors, interconnection delay is one of the major constraints in performance improvement. To solve this problem, the 3-dimensional integration technology has been adopted in designing multi-core processors. The 3D multi-core architecture can reduce the physical wire length by stacking cores vertically, leading to reduced interconnection delay and reduced power consumption. However, the power density of 3D multi-core architecture is increased significantly compared to the traditional 2D multi-core architecture, resulting in the increased temperature of the processor. In this paper, the floorplan methods which change the forms of vertical placement of the core and the level-2 cache are analyzed to solve the thermal problems in 3D multi-core processors. According to the experimental results, it is an effective way to reduce the temperature in the processor that the core and the level-2 cache are stacked adjacently. Compared to the floorplan where cores are stacked adjacently to each other, the floorplan where the core is stacked adjacently to the level-2 cache can reduce the temperature by 22% in the case of 4-layers, and by 13% in the case of 2-layers.

      • TLB 구조에 따른 3차원 멀티코어 프로세서의 성능, 온도 분석

        손동오(Dong Oh Son),최홍준(Hong Jun Choi),김철홍(Cheol Hong Kim) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1B

        3차원 멀티코어 프로세서는 기존의 멀티코어 프로세서에서 문제가 되던 연결망 지연시간과 전력문제를 해결할 수 있는 새로운 프로세서 설계기술이다. 하지만, 전력밀도의 증가로 인해 발생하는 열섬현상은 3차원 멀티코어 프로세서의 새로운 문제점으로 두드러지고 있다. 이러한 문제를 해결하기 위해서 동적 온도 관리 기법이 사용되지만, 동적 온도 관리 기법을 적용하면 시스템에 성능 저하가 발생하게 된다. 따라서 본 논문에서는 3차원 멀티코어 프로세서에서 문제가 되는 열섬현상을 해결하기 위해 고온의 유닛을 대상으로 동적 온도 관리 기법을 적용하고자 한다. 실험대상으로는 시스템 성능에 많은 영향을 미치고 높은 접근 때문에 고온이 발생하는 TLB 유닛을 사용하고자 한다. 특히, 시스템의 성능 저하를 줄이기 위해서 기존의 시스템보다 낮은 성능을 보이는 마이크로 TLB 구조를 적용해 보고자 한다. 성능이 낮은 구조의 경우 일반적으로 더 낮은 온도 분포를 보이며 동적 온도 관리 기법에 영향을 덜 받기 때문에 동적 온도 관리 기법만 적용한 구조보다 더 낮은 성능 저하를 보일 수 있다. 실험결과 동적 온도 관리 기법을 적용한 경우 기존의 시스템에 비해 23.4%의 성능 저하가 발생하고 마이크로 TLB 구조를 적용한 경우 27.1%의 성능 저하가 발생함을 알 수 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼