http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
여준기(Chun-Gi Lyuh),김태환(Taewhan Kim) 한국정보과학회 2002 정보과학회논문지 : 시스템 및 이론 Vol.29 No.11·12
딥 서브 마이크론 (DSM: deep-submicron) 설계에서는 버스에서 선들 간의 커플링 효과는 크로스톡 지연, 노이즈, 전력 소모와 같은 심각한 문제를 야기 시킨다. 버스 인코딩에 대한 대부분의 이전 연구들은 버스에서의 전력 소모를 최소화하거나 크로스톡 지연을 최소화하는데 초점을 맞추고 있지만 모두를 고려한 방법은 보이지 않는다. 이 논문에서, 우리는 버스에서의 전력 소모 최소화와 크로스톡 지연 방지를 동시에 고려한 새로운 버스 인코딩 알고리즘을 제안하였다. 우리는 이 문제를 공식화하여, 자체 천이와 상호 천이의 가중 합 문제를 풂으로써 해결하였다. 여러 벤치마크 설계를 이용한 실험으로부터 제안한 인코딩 방법을 이용할 경우, 크로스톡 지연을 완전히 제거할 뿐 아니라 이전의 방법들을 사용한 것 보다 최소 15% 이상 적은 전력을 소모하였음을 보았다. In deep-submicron (DSM) design, coupling effects between wires on the bus cause serious problems such as crosstalk delay, noise, and power consumption. Most of the previous works on bus encoding are targeted either to minimize the power consumption on bus or to minimize the crosstalk delay, but not both. In this paper, we propose a new bus encoding algorithm that minimizes the power consumption on bus and eliminates the crosstalk delay simultaneously. We formulate and solve the problem by minimizing a weighted sum of the self transition and cross-coupled transition activities on bus From experiments using a set of benchmark designs, it is shown that the proposed encoding technique consumes at least 15% less power over the existing techniques, while completely eliminating the crosstalk delay.
네트워크 플로우에 기반한 아키텍쳐 수준에서의 전력 최적화
여준기(Chun-Gi Lyuh),김태환(Taewhan Kim) 한국정보과학회 2002 한국정보과학회 학술발표논문집 Vol.29 No.1A
이 논문은 행위 합성(behavioral synthesis)에서 전력 소모 최적화를 위한 효율적인 알고리즘을 제안한다. 이전의 논문에서 전력 최적화를 위한 여러가지의 하드웨어 할당/바인딩(allocation/binding) 문제들이 네트워크 플로우 문제로 나타내어 질 수 있고, 최적으로 풀릴 수 있음이 보여졌다. 그러나, 그 연구에서는 고정된 스케줄이 가정되고 있다. 이와 관련해서 주어진 스케줄에 대한 하드웨어 할당/바인딩 문제를 위한 최적의 네트워크 플로우 결과가 주어졌을 때, 주어진 스케줄을 일부분 바꾼 것에 대한 새로운 최적의 네트워크 플로우 결과를 얻는 것이 주요 문제이다. 이 때문에 우리는 네트워크 구조와 플로우 계산간의 관계에 대한 분석으로 부터 최대 플로우 계산 단계와 최소 비용 계산 단계의 2 단계 과정을 고안하였다. 실험결과를 통해 우리의 설계가 스케줄의 영향과 각 스케줄에 대한 최적의 바인딩을 이용함으로써 전력 소모와 계산 시간에서 매우 향상된 결과를 얻을 수 있음을 볼 수 있다.
슈퍼컴퓨터 SoC를 위한 OpenCL Debugger 개발
정현미(Hyun Mi Jung),여준기(Chun-Gi Lyuh),구기범(Gibeom Gu) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
We present the development of an OpenCL debugger for a new supercomputer SoC called AB21. AB21 consists of 256 extended RISC-V cores, each of which includes support for FP64 data type, a matrix /vector operation accelerator with new instructions, and a revised debug subsystem for debugging OpenCL applications. Originally the debug subsystem was designed to work with JTAG, but our goal is to use it for debugging OpenCL kernels with LLDB running on the host CPU. To achieve this, we modified the debug subsystem to be controlled by software. Also the registers and commands are extended to support 64-bit applications. We use the updated subsystem to implement debug functions of the OpenCL debugger. These functions cover step-wise execution of instructions in the OpenCL kernel, analysis of OpenCL local and global variables, and so on.
병렬 어레이 프로세서 기반 U-Chip 및 H.264 디코더의 병렬 파이프라인 구조
석정희(Suk, Jung-Hee),여준기(Lyuh, Chun-Gi),노태문(Roh, Tae Moon) 한국방송·미디어공학회 2013 한국방송공학회 학술발표대회 논문집 Vol.2013 No.11
본 논문에서는 다양한 멀티미디어 코덱을 고속으로 처리하기 위하여 전용하드웨어가 아닌 병렬 어레이 프로세서 기반의 U-Chip(Universal-Chip) 구조를 제안하고 TSMC 80nm 공정을 사용하여 11,865,090개의 게이트 수를 가지는 칩으로 개발하였다. U-Chip은 역양자화(IQ), 역변환(IT), 움직임 보상(MC) 연산을 위한 4x16 개의 프로세싱 유닛으로 구성된 병렬 어레이 프로세서와 문맥적응적 가변길이디코딩(CAVLC)을 위한 비트스트림 프로세서와 인트라 예측(IP), 디블록킹필터(DF) 연산을 위한 순차 프로세서와 DMAC의 데이터 전송 및 각 프로세서를 제어하여 병렬 파이프라인 스케쥴링을 처리하는 시퀀서 프로세서 등으로 구성된다. 1개의 프로세싱 유닛에 1개의 매크로블록 데이터를 맵핑하여 총 64개의 매크로블록을 병렬처리 하였다. 64개 매크로블록의 대용량 데이터 전송 시간과 각 프로세서들의 연산을 동시에 병렬 파이프라인 함으로서 전체 연산 성능을 높일 수 있는 이점이 있다. 병렬 파이프라인 구조의 H.264 디코더 프로그램을 개발하였고 제작된 U-Chip을 통해 720×480 크기의 베이스라인 프로파일 영상에 대하여 코어 192MHz 동작, DDR 메모리 96MHz 동작에서 30fps의 처리율을 가짐을 확인하였다.