http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
효과적인 메모리 구조를 갖는 병렬 렌더링 프로세서 설계
박우찬,윤덕기,김경수,Park Woo-Chan,Yoon Duk-Ki,Kim Kyoung-Su 한국정보처리학회 2006 정보처리학회논문지 A Vol.13 No.4
현재의 거의 대부분의 3차원 그래픽 프로세서는 한 개의 삼각형을 빠르게 처리하는 구조로 되어 있으며, 향후 여러 개의 삼각형을 병렬적으로 처리할 수 있는 프로세서가 등장할 것으로 예상된다. 고성능으로 삼각형을 처리하기 위해서는 각 래스터라이저마다 고유한 픽셀 캐시를 가져야 한다. 그런데, 병렬로 처리되는 경우 각각의 프로세서와 프레임 메모리 간에 일관성 문제가 발생할 수 있다. 본 논문에서는 각각의 그래픽 가속기에 픽셀 캐시를 사용가능 하게 하면서 성능을 증가시키고 일관성 문제를 해결하는 병렬 렌더링 프로세서를 제안한다. 제안하는 구조에서는 픽셀 캐시 미스에 의한 지연(latency)을 감소시켰다. 이러한 2가지 성과를 위하여 현재의 새로운 픽셀 캐시 구조에 효과적인 메모리 구조를 포함시켰다. 실험 결과는 제안하는 구조가 16개 이상의 래스터라이저에서 거의 선형적으로 속도 향상을 가져옴을 보여준다. Current rendering processors are organized mainly to process a triangle as fast as possible and recently parallel 3D rendering processors, which can process multiple triangles in parallel with multiple rasterizers, begin to appear. For high performance in processing triangles, it is desirable for each rasterizer have its own local pixel cache. However, the consistency problem may occur in accessing the data at the same address simultaneously by more than one rasterizer. In this paper, we propose a parallel rendering processor architecture resolving such consistency problem effectively. Moreover, the proposed architecture reduces the latency due to a pixel cache miss significantly. For the above two goals, effective memory organizations including a new pixel cache architecture are presented. The experimental results show that the proposed architecture achieves almost linear speedup at best case even in sixteen rasterizers.
박우찬,한탁돈,Park, Woo-Chan,Han, Tack-Don 한국정보처리학회 1997 정보처리논문지 Vol.4 No.11
부동 소수점 연산기는 고성능 컴퓨터에서 필수적이며, 최근 대부분의 고성능의 컴퓨터에서는 고성능의 부동 소수점 연산기가 내장되고 있는 추세이다. 부동 소수점 연산이 고속화 되면서 부동 소수점 연산기에서 한개의 단계를 차지하는 반올림 단계가 전체 부동 소수점 연산에 큰 영향을 미친다. 반올림 단계에서는 별도의 고속 가산기를 필요로하여 많은 처리 시간과 칩 면적을 차지하기 때문이다. 본 연구는 고성능 부동 소수점 연산기의 근 간을 이루는 부동 소수점 덧셈/뺄셈기, 곱셈기, 나눗셈기의 처리 알고리즘을 살펴보고, 이를 분석하여 새로운 반올림 처리 알고리즘을 갖는 연산기를 제안하였다. 제안된 부동 소수점 연산기들은 반올림 처리를 위한 별도의 시간을 요하지 않고, 반올림단계를 위한 가산기나 증가기를 필요로 하지 않는다. 따라서, 제안하는 부동 소수점 연산기들은 성능면이나 차지 면적 면에서 모두 효율적이다. An FPU(Floating Point unit) is the principle component in high performance computer and is placed on a chip together with main processing unit recently. As a Processing speed of the FPU is accelerated, the rounding stage, which occupies one of the floating point Processing steps for floating point operations, has a considerable effect on overall floating point operations. In this paper, by studying and analyzing the processing flows of the conventional floating point adder/subtractor, multipler and divider, which are main component of the FPU, efficient rounding mechanisms are presented. Proposed mechanisms do not require any additional execution time and any high speed adder for rounding operation. Thus, performance improvement and cost-effective design can be achieved by this approach.
확장형 디스플레이를 위한 분산 렌더링 시스템의 네트워크 대역폭 감소 기법
박우찬(Woo-Chan Park),이원종(Won-Jong Lee),김형래(Hyung-Rae Kim),김정우(Jung-Woo Kim),한탁돈(Tack-Don Han),양성봉(Sung-Bong Yang) 한국정보과학회 2002 정보과학회논문지 : 시스템 및 이론 Vol.29 No.9·10
확장형 디스플레이(Scalable Display)는 큰 화면과 높은 화질의 영상을 생성하여 사용자들에게 보다 현실적인 느낌을 주고 이에 몰입할 수 있는 환경을 제공하는 시스템이다. 최근 들어서 이러한 확장형 디스플레이는 자체 그래픽 가속기와 메모리, CPU, 저장장치를 갖는 개별 PC들을 네트워크로 연결한 클러스터 환경에서 구축되고 있다. 하지만 클러스터 환경에서 분산 렌더링을 수행하면 제한된 대역폭 때문에 네트워크 병목점을 갖게 된다. 본 논문은 이러한 네트워크 트래픽을 줄이는 새로운 알고리즘을 제안하고, 이를 기존의 분산 렌더링 시스템에 적용하여 구현한 내용을 소개한다. 제안하는 기하 추적(geometry tracking) 알고리즘은 전송되는 데이터들을 색인화하여 중복된 기하정보 전송을 방지하여 네트워크 부하를 줄이는 방법으로, 실험을 통해서 최대 42%까지 네트워크 트래픽을 감소시킬 수 있었다. Scalable displays generate large and high resolution images and provide an immersive environment. Recently, scalable displays are built on the networked clusters of PCs, each of which has a fast graphics accelerator, memory, CPU, and storage. However, the distributed rendering on clusters is a network bound work because of limited network bandwidth. In this paper, we present a new algorithm for reducing the network bandwidth and implement it with a conventional distributed rendering system. This paper describes the algorithm called geometry tracking that avoids the redundant geometry transmission by indexing geometry data. The experimental results show that our algorithm reduces the network bandwidth up to 42%.
박우찬(Park Woo Chan),한탁돈(Han Tack Don) 한국정보처리학회 1997 정보처리학회논문지 Vol.4 No.11
An FPU(Floating Point Unit) is the principle component in high performance computer and is placed on a chip together with main processing unit recently. As a processing speed of the FPU is accelerated, the rounding stage, which occupies one of the floating point processing steps for floating point operations, has a considerable effect on overall floating point operations. In this paper, by studying and analyzing the processing flows of the conventional floating point adder/subtractor, multipler and divider, which are main component of the FPU, efficient rounding mechanisms are presented. Proposed mechanisms do not require any additional execution time and any high speed adder for rounding operation. Thus, performance improvement and cost-effective design can be achieved by this approach.