http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
하이퍼 큐브 컴퓨터에서 효과적인 오류 허용 다중전송기법 (pp.612-614)
명훈주(Hunjoo Myung),김성천(Sungchun Kim) 한국정보과학회 2000 한국정보과학회 학술발표논문집 Vol.27 No.1A
하이퍼큐브의 성능을 좌우하는 중요한 요소 중 하나가 프로세서간의 통신이다. 그리고 병렬 컴퓨터에서 프로세서의 수가 증가함에 따라, 구성요소들이 오류가 날 확률도 높아졌다. 이러한 이유로, 오류 난 구성요소들이 있어도 다중 전송이 가능하게 효율적으로 설계하는 것이 중요하다. 본 논문에서는 최근에 제안된 완전 도달성 정보와 새로 추가한 국지적 정보를 이용해서 라우팅 알고리즘을 제안하고, 이것을 바탕으로 다중 전송 성공률이 높은 새로운 다중 전송 알고리즘을 제안하였다. 시뮬레이션을 통하여 제안한 기법은 기존의 기법보다 통신량의 차이는 거의 없으면서, 다중 전송 성공률이 목적지 노드 수에 따라 5~15%가량 향상시킬 수 있었다.
명훈주 ( Hunjoo Myung ) 한국정보처리학회 2019 한국정보처리학회 학술대회논문집 Vol.26 No.2
누리온 시스템은 Intel Xeon Phi 아키텍쳐를 기반한 8305개의 노드로 구성되었고, 이론 성능 25.7페타플롭스를 갖춘 시스템으로 2018년도에 도입되었다. 누리온 시스템은 그 동안 KISTI가 지속적으로 수행해 온 국내 계산과학자를 지원하는 한편, 빅데이터를 기반으로 하는 거대 규모의 딥러닝 등의 새로운 AI 분야에서도 슈퍼컴퓨팅을 활용할 수 있도록 전략적으로 지원하고 있다. 본 논문에서는 이러한 거대 규모 딥러닝을 수행하는데 있어 발생하는 주요 이슈들과 이러한 이슈들을 누리온 시스템에서는 어떻게 해결하고 있는지에 대해 소개한다.
누리온 시스템에서의 All-Reduce 알고리즘 성능평가
명훈주 ( Hunjoo Myung ),정기문 ( Kimoon Jeong ) 한국정보처리학회 2020 한국정보처리학회 학술대회논문집 Vol.27 No.2
GPU 기술과 빅데이터의 성장에 힘입어 최근 딥러닝 기술은 괄목할만한 성장을 이루었고, 구글, 페이스북, 우버 등의 빅데이터를 보유한 업체들과 슈퍼컴퓨팅분야에서는 이러한 빅데이터를 빠른 시간 안에 학습하기 위해 분산 딥러닝 기술을 연구해오고 있다. 이러한 대규모 분산 딥러닝에서는 집합 통신, IO 부하 등이 주요 병목으로 알려져 있다. 본 연구에서는 분산 딥러닝에서 시도되고 있는 주요 All-Reduce 알고리즘들에 대해 누리온 시스템에서 성능평가를 수행하였고, 512노드 이상의 대규모에서는 2D-torus 알고리즘이 우수한 성능을 보였다.
HSA 런타임 API를 이용한 hipSYCL 런타임 백엔드 개발
명훈주 ( Hunjoo Myung ),구기범 ( Gibeom Gu ) 한국정보처리학회 2022 한국정보처리학회 학술대회논문집 Vol.29 No.2
SYCL은 OpenCL 디바이스를 위해 추상화한 C++ 프로그래밍 모델이다. OpenCL에 비해 SYCL은 높은 생산성 등 C++이 가지고 있는 강점을 보유하며, 인텔이 이기종 컴퓨팅을 위한 개발 언어로 SYCL 기반의 DPC++을 출시함에 따라 많은 주목을 받고 있다. 우리는 여러 SYCL 구현물들 중에서 NVIDIA, AMD 등 다양한 GPU를 지원하고, 코드의 수정 및 추가가 용이한 hipSYCL를 채택하여 여러 연구를 진행하고 있다. 본 논문에서는 hipSYCL 구조 내에 AMD GPU를 위한 HIP 백엔드 플러그인을 대체할 수 있는 새로운 백엔드 플러그인을 제안한다. 이 플러그인은 HSA 런타임 API를 사용하여 기존의 플러그인보다 계층 구조를 줄이고 경량화하였다.
하이퍼 큐브 컴퓨터에서 효과적인 오류 허용 다중전송기법 (pp.273-279)
명훈주(Hunjoo Myung),김성천(Sungchun Kim) 한국정보과학회 2003 정보과학회논문지 : 시스템 및 이론 Vol.30 No.5·6
하이퍼큐브 컴퓨터는 정규적 구조(regular structure)와 짧은 지름(short diameter) 등 병렬 처리에 적합한 특징을 지니고 있기 때문에 이에 대해 많은 연구가 있어 왔다. 하이퍼큐브의 성능을 좌우하는 중요한 요소 중 하나는 프로세서간의 통신인데, 이 중 다중전송(multicast)은 하나의 전송데이터의 복제, 신호처리 등과 같은 다양한 응용 프로그램에서 이용되는 중요한 통신패턴이다. 병렬 컴퓨터에서 프로세서의 수가 증가함에 따라 구성요소들이 오류가 날 확률도 높아졌다. 이러한 이유로, 오류 난 구성요소들이 있어도 다중 전송이 가능하게 효율적으로 설계하는 것이 중요하다. 이러한 오류 허용 라우팅과 다중 전송은 오류 정보에 따라, 국지적 오류 정보를 바탕으로 하는 전략, 전역적 오류 정보를 바탕으로 하는 전략, 제한된 오류 정보를 바탕으로 하는 전략 등이 있는데, 이 중에서 후자가 정보 수집비용이 적으면서도 좋은 성능을 보인다. 본 논문에서는 최근에 제안된 완전 도달성 정보와 새로 추가한 국지적 정보를 이용해서 라우팅 알고리즘을 제안하고, 이것을 바탕으로 다중 전송 성공률이 높은 새로운 다중 전송 알고리즘을 제안한다. 제안 기법은 완전 도달성 정보와 국지적 정보를 이용하여 우회하는 경우와 다중전송 실패하는 경우를 줄임으로써, 기존의 기법보다 통신량의 차이는 거의 없으면서도 다중전송 성공률을 향상시킬 수 있음을 시뮬레이션을 통해 검증하였다. Hypercube multicomputers have been drawing considerable attention from many researchers due to their regular structure and short diameter. One of keys to the performance of Hypercube is the efficiency of communication among processors. Among several communication patterns, multicast is important, which is found in a variety of applications as data replication and signal processing. As the number of processors increases, the probability of occurrences of fault components also increases. So it would be desirable to design an efficient scheme that multicasts messages in the presence of faulty component.In fault-tolerant routing and mulicast, there are local information based scheme, global information based scheme and limited information based scheme in terms of information. In general, limited information is easy to obtain and maintain by compressing information in a concise format. In this paper, we propose a new routing scheme and a new multicast scheme using recently proposed fully reachability information scheme and new local information scheme. The proposed mulicast scheme increases multicast success possibility and reduce deroute cases. Experiments show that multicast success possibility can increase at least 15% compared to previous method.
SYCL에서 효율적인 멀티 GPU 프로그래밍을 위한 MPI-wrapper API 개발
명훈주 ( Hunjoo Myung ),구기범 ( Gibeom Gu ),오광진 ( Kwang Jin Oh ) 한국정보처리학회 2023 한국정보처리학회 학술대회논문집 Vol.30 No.2
SYCL은 C++을 기반으로 하는 언어로 가속기를 사용하는 복잡한 과정을 C++의 특징 중의 하나인 추상화를 사용해 개발자가 쉽게 접근할 수 있게 한다. 그러나, 가속기를 활용하는 측면에서는 성능을 최대한으로 끌어내기 위해 저수준 접근도 필요하다. 특히, NVLink와 같이 효율적인 멀티-GPU 통신을 해주는 인터커넥션 링크 활용을 위해서도 필요하다. 본 논문에서는 SYCL 구현물 중의 하나인 AdaptiveCpp을 가지고 NVLink로 연동된 멀티 GPU 환경에서 효율적으로 프로그래밍을 할 수 있는 방법을 제안하고, SYCL 개발자들이 SYCL의 설계 철학을 따라 프로그래밍을 할 수 있도록 이러한 기능을 추상화하여 담은 MPI wrapper API를 제안한다.