http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
멀티 테넌트 환경에서 Multi-Instance 그래픽 프로세싱 유닛을 활용한 워크로드 단위 공정성 분석 연구
이제인,윤명국 대한전자공학회 2023 전자공학회논문지 Vol.60 No.4
Recently Multi-Instance Graphics Processing Units (GPUs) have been widely used in multi-tenant cloud computing environments, where multiple concurrent applications are executed on a single GPU, sharing limited resources. Nevertheless, studies lack in the sphere of fairness between applications executing on Multi-Instance GPUs. This paper conducts a detailed analysis of the fairness of concurrently executing applications on Multi-Instance GPUs. First, we analyze the performance of an application according to the number of streaming multiprocessor slices and memory slices used in Multi-Instance GPUs. Then, based on the analyzed performance patterns, we measure the fairness of applications and reveal that the highest fairness is guaranteed when slices are divided evenly, or in an asymmetric form considering the performance saturation point. In summary, this study makes three major contributions. (i) We define the three types of applications classified for the performance patterns with the increase of the number of slices used. (ii) We present an algorithm of the case with the highest fairness when intra-type applications are executed concurrently. (iii) We also present an algorithm for the highest fairness in those situations where inter-type applications are executed concurrently. 최근 클라우드 서비스 등이 증가함에 따라 하나의 그래픽 프로세싱 유닛에서 여러 애플리케이션이 한정된 리소스를 분할하여 사용하는 멀티 테넌트 연산 환경이 보편화되고 있다. 이에 따라 각 애플리케이션이 얼마나 공정하게 리소스를 할당 받는지에 대한 관심이 높아지고 있다. 본 연구는 Multi-Instance 그래픽 프로세싱 유닛을 사용하여, 스트리밍 멀티프로세서 슬라이스 및 메모리 슬라이스 개수에 따른 애플리케이션의 성능 패턴을 분석하였다. 이를 기반으로, 동일한 패턴을 가지는 두 애플리케이션이 하나의 그래픽 프로세싱 유닛에서 동시에 실행될 때와 서로 다른 패턴을 가지는 두 애플리케이션이 하나의 그래픽 프로세싱 유닛에서 동시에 실행될 때, 각 애플리케이션에게 할당한 슬라이스 개수에 따른 공정성을 분석하였다. 그 결과 슬라이스 개수를 절반씩 분할하거나, 특정 애플리케이션의 성능이 포화되는 지점을 기준으로 슬라이스 개수를 분할하는 경우에 공정성이 가장 높다는 사실을 확인하였다. 본 논문의 기여는 다음과 같이 정리할 수 있다. (i) 슬라이스의 개수에 따른 성능 패턴을 분석하여 애플리케이션을 세 가지 형태로 분류하였고, (ii) 동일한 성능 패턴을 가지는 애플리케이션이 하나의 그래픽 프로세싱 유닛에서 동시에 실행될 때 가장 높은 공정성을 도출하는 방법을 제시하였으며, (iii) 서로 다른 성능 패턴을 가지는 애플리케이션이 동시에 실행될 때 가장 높은 공정성을 도출하는 알고리즘을 제시하였다.
GPU를 위한 프로파일링 기반 페이스 예측 및 적응형 워프 스케줄러
박종현(Jong Hyun Park),윤명국(Myung Kuk Yoon),김민수(Minsu Kim),노원우(Won Woo Ro) 대한전자공학회 2015 대한전자공학회 학술대회 Vol.2015 No.11
In the many-core era, Graphics Processing Unit(GPU) have become important for processing data of large volume since General Purpose computation on GPU (GPGPU) achieve high performance successfully. To improve the GPGPU performance, many researches proposed warp scheduling policies. However, various warp scheduling policies show different performance on different kernels, since each kernels shows different characteristics. To address this problem, this paper proposes adaptive warp scheduling policy based on profiling information. Our experimental results show that the adaptive warp scheduling policy achieves average 8.7% performance improvements compared to baseline GPU architecture.
차세대 메모리 소자를 적용한 신경망 처리장치의 성능 분석
최상운,박성준,박재용,홍석인,윤명국,오윤호 대한전자공학회 2023 전자공학회논문지 Vol.60 No.7
Recent deep neural networks (DNN) contain an increasing number of parameters. To provision the parameters to neural processing units (NPU), off-chip memory requires a larger capacity and higher bandwidth. Conventional NPUs employ DRAM as the off-chip memory, but DRAM cannot achieve a sustainable scalability in density. To overcome this challenge, prior work has investigated emerging memory technologies as alternatives to DRAM. However, the emerging memory technologies often exhibit lower bandwidth and longer latency than DRAM. As such, designing neural network acceleration systems with NPUs and emerging memory technologies requires a detailed design space exploration in terms of performance and area. This paper performs evaluations the performance per area with various memory technologies while running neural network inference workloads. 최근 심층신경망의 파라미터 수가 증가함에 따라, 심층신경망 연산을 처리하기 위한 신경망 처리장치는 더 많은 메모리 용량과 대역폭을 요구한다. 기존 신경망 처리장치는 오프칩 메모리로 DRAM을 주로 사용한다. DRAM은 무어의 법칙이 종료된 현재 지속적으로 소형화하는 것에 한계가 있다. 따라서, 증가하는 메모리 요구사항에 맞추어 대용량의 오프칩 메모리를 확보하기 위해서는 DRAM이 아닌 다른 메모리 기술을 기반으로 오프칩 메모리를 구성하는 대안을 고려하여야 한다. 차세대 메모리 소자들은 대체로 DRAM 대비 높은 bit density를 가지는 이점이 있다. 그러나 이러한 기술들은 DRAM에 비해 대역폭과 레이턴시 특성이 좋지 못한 경우가 많다. 따라서 차세대 메모리 소자를 적용한 신경망 처리장치를 설계하기에 앞서 성능과 면적 두 가지 면에서 면밀한 분석이 이루어져야 한다. 본 논문에서는 시뮬레이션을 통해 다양한 메모리 소자의 성능 및 면적 대비 성능을 분석한다.
신현준(Hyun-jun Shin),윤명국(Myung Kuk Yoon),노원우(Won Woo Ro) 대한전자공학회 2017 대한전자공학회 학술대회 Vol.2017 No.6
Neural network applications are both memory intensive and computation intensive. Network models which have over 90% accuracy from ImageNet dataset have at least 27MB of parameter size and 1.6GOPS in classifying an image. However, the mobile platform has limited hardware resources to compute the real-time image. To solve this problems, hardware architectural support using parallel computing is required. Based on our simulation results, convolutional layer dominates the computational resources in neural network applications. Convolutional layer is replaced with matrix multiplication by lowering. In this paper, we estimate parallelism of each network model. This estimation can be used to determine the number of SIMD lane for neural network accelerator.
Reduced Precision Floating Point를 활용한 Ray Tracing 분석 연구
정은수(Eun Soo Jung),정연희(Yeonhee Jung),윤명국(Myung Kuk Yoon) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
To address the inefficiency issue of single or double precision floating point (FP) operations, which demands significant memory bandwidth and energy usage in ray tracing rendering, this study proposes the application of a single reduced precision FP format to ray tracing. Reduced precision FP refers to a FP data type that reduces the number of bits in the exponent and mantissa of the existing FP. Although this results in higher operational and memory efficiency than the existing method, it also has the disadvantage of relatively lower accuracy, resulting in more data loss. This paper demonstrates that even when reduced precision FP operations are applied to ray tracing, the resulting images are comparable to those generated by the conventional method. Furthermore, based on experiments and analyses of various precisions, this paper proposes a precision that is suitable for ray tracing.
그래픽 프로세싱 유닛의 성능 향상을 위한 프리로딩 연구
박은성(Eun Seong Park),정은비(Eunbi Jeong),윤명국(Myung Kuk Yoon) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
In this paper, a new architecture is proposed for GPUs that aims to solve two problems present in previous prefetching architectures. The first problem is the cache eviction problem caused by the additional prefetch memory requests. The second problem is the performance limitation of the prefetching architecture due to the extra access cycles required to load prefetched data from the L1 cache to the register file. The proposed preloading architecture addresses these problems by prefetching data into dedicated storage, which can then be directly loaded into the register file when demand memory requests access the storage. According to the evaluation results, the proposed architecture shows about 11% of performance improvement over the baseline.