http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
태스크의 최적할당이 연결망의 통신량에 미치는 효과에 대한 분석
하순회(Soonhoi Ha) 한국정보과학회 1995 정보과학회논문지 Vol.22 No.4
병렬연산 시스템에서는 빠른 수행을 위하에 프로그램을 병렬적으로 수행할 수 있는 태스크들을 N개의 가상프로세서로 분배하고 가상프로세서를 실제프로세서에 할당하는 스케쥴링 작업이 필요하다. 프로세서간의 통신때문에 발생하는 오버헤드가 무시할 수 없는 부분을 차지하므로 이를 줄이거나 극복하기 위한 노력들이 연구되고 있다. 이 오버헤드를 줄이기 위하여 프로세서간의 통신링크의 총 트래픽을 최소화 하도록 가상프로세서를 실제프로세서에 할당하는 기법을 사용할 수 있다. 즉, 가까이 위치한 프로세서에 서로 통신요구량이 많은 가상프로세서들을 할당하도록 한다. 이 논문에서는 이와같은 최적의 할당기법을 사용함으로써 랜덤하게 할당하는 경우에 비하여 연결망의 총 통신량을 얼마나 감소시킬 수 있는지 수리적으로 분석하고 모의실험을 통하여 수리적인 분석의 타당성을 점검하였다. 효과적인 병렬 스케쥴링을 위하여서는 최적할당을 위한 알고리즘 수행시간과 기대되는 통신량의 감소를 비교하여 최적할당 기법의 사용여부를 결정하도록 하여야 한다. Balancing the loads of processors by partitioning the tasks into N virtual processors and assigning these virtual processors to N physical processors is a major task of the scheduling of a parallel processing system. Since the interprocessor communication(IPC) overhead may degrade the efficiency of the load balancing, active studies have been performed to reduce or to hide the IPC overhead. One technique is to assign the virtual processors to the physical processors such that the total traffic requirements are minimized over the interconnection network. That is, two virtual processors with heavy communication requirements are assigned to physical processors as close as possible. In this paper, we evaluate analytically how much the network traffic is reduced by an optimal assignment over a random assignment. Our analysis will be supported by simulation. In order to apply an assignment algorithm to real applications, its effectiveness and its overhead should be compromised.
데이타 의존적 반복문과 조건문을 위한 컴파일 시간 스케쥴링 기법
하순회(Soonhoi Ha) 한국정보과학회 1995 정보과학회논문지 Vol.22 No.8
병렬연산 시스템에서 자원을 효과적으로 활용하기 위하여 태스크들을 프로세서에 분배하고 동작 순서를 결정하는 스케쥴링이 필요하다. 프로그램의 수행도중에 이러한 스케쥴링을 수행하는 동적 스케쥴링 기법에서는 스케쥴링을 위한 하드웨어나 소프트웨어의 오버헤드가 크다. 반면에, 태스크들의 분배나 수행 순서를 프로그램을 컴파일 할 때의 정적으로 결정하는 정적 스케쥴링 기법을 사용하기 위해서는 각 태스크들의 수행시간이나 다른 태스크와의 통신량같은 특성들(프로파일이라고 정의함)이 미리 알려져 있어야 한다. 조건문이나 데이타 의존적인 반복구문의 경우에는 프로파일이 정적으로 정의될 수 없으므로 정적 스케쥴링 기법으로 다루기에 적합하지 않다. 본 논문에서는 스케쥴링 오버헤드를 최소화하기 위하여 이와같은 동적인 구문을 어떻게 컴파일 스케쥴링 기법에서 취급할 것인가를 살펴본다. 제안하는 기법을 각 동적구문의 특성에 대한 통계학적인 예측이 가능한 것을 가정하며 한 프로그램에서 동적인 구문의 비율이 크지 않은 경우에 효과적이다. To achieve the maximal utilization of resource in a multiprocessor system, we have to schedule tasks (actors of a dataflow graph) onto processors optimally. Scheduling consists of assigning tasks into processors and ordering them within the processors. While all scheduling decisions can be made at runtime, it costs too much runtime overhead to be adopted in most real systems. Hence, compile-time decisions are made for assigning and/or ordering tasks into processors in order to reduce the runtime overhead. Compile time decisions are based on the known profiles which are available for each task at compile time. The profile of a task, which is defined as the information necessary for scheduling, consists of, for example, execution time, communication patterns, and so on. However, a dynamic construct, such as a conditional and a data-dependent iteration, makes the profile of the task non-deterministic at run time. For those constructs, we have to assume the profiles somehow at compile-time. We illustrate how to determine the profiles of conditionals and data-dependent itertaions under the assumption that the runtime statistics are available at compile-time. Our decisions on the profiles of dynamic constructs are shown to be optimal under some bold assumptions, and expected to be near-optimal in most cases. We presents the preliminary results on the performance with synthetic examples.
비디오 응용에서 화질 제약을 고려한 응용 수준의 에너지 최적화 기법
임채석(Chaeseok Im),하순회(Soonhoi Ha) 한국정보과학회 2003 한국정보과학회 학술발표논문집 Vol.30 No.1A
이 논문은 프레임 기반의 비디오 응용에 대해서 화질 (video quality) 제약을 고려한 응용 수준(application-level)에서의 에너지 최적화 기법을 제안한다. 화질과 에너지 소모 사이에는 상관관계(trade-off)가 있음을 이용하여, 본 논문은 H.263 인코더의 화질을 실시간으로 모니터링해서 프레임 속도(frame rate)를 자동으로 조절하는 알고리즘을 제안한다. 기존 동적 전압 스케줄링 (DVS: dynamic voltage scheduling) 기법은 유휴 시간 (slack time)을 주어진 것이라고 가정하면 반면, 제안하는 기법은 유휴 시간 자체를 증가시켜서 DVS 기법의 효과를 향상시킨다. 제안하는 기법이 주어진 화질 제약을 만족하며 상당한 에너지 소모를 감소함을 실험을 통해서 알 수 있다.
I-구조 데이타 캐쉬가 프레임 기반 다중스레드 모델의 성능에 미치는 영향
김형식(Hyong-Shik Kim),하순회(Soonhoi Ha),전주식(Chu Shik Jhon) 한국정보과학회 1997 정보과학회논문지 : 시스템 및 이론 Vol.24 No.11
다중스레드 모델에서는 프로세서가 원격 메모리 참조에 필요한 지연시간(latency) 동안 결과를 기다리게 하는 대신 다른 스레드로 제어를 옮겨 수행을 계속하기 때문에, 원격 메모리에 저장된 I-구조 데이타를 캐쉬에 저장할 때 기대할 수 있는 성능 향상의 정도는 일반적인 데이타 캐쉬에 비하여 훨씬 작을 것으로 예상된다. 본 논문에서는 프레임 기반 다중스레드 모델에서 I-구조 데이타의 특성에 적합한 캐쉬 구조와 I-구조 연산의 구현 방법에 대하여 제안하고, 지연시간 감내 성질(latency tolerating property)에도 불구하고 I-구조 데이타 캐쉬가 프로그램 수행 시간을 감소시킬 수 있음을 보인다. 실험 결과의 분석에 의하면, 프레임 기반 다중스레드 모델의 성능에 대한 I-구조 데이타 캐쉬의 영향 중에서 가장 중요한 것은 프레임 병렬성의 향상이다. 이것은 프로세서들에게 지연시간을 감내하는데 필요한 대체 작업을 충분히 공급함으로써 다중스레드 모델의 효율을 증가시키고 수행 시간을 단축시킨다. In multithreaded model, the processor does not wait for the response with a long latency on a remote memory access, but can still continue the computation by rapidly switching to a ready-to-run thread. Therefore, caching I-structure data kept in remote memory is expected to have less beneficial effect on the performance than caching ordinary data. In this paper, we propose an organization and an operation scheme of an I-structure data cache for frame-based multithreading, and show that the proposed I-structure data cache could improve the overall performance in spite of latency tolerating property of multithreaded model. The analysis on the simulation results reveals that the most important effect of I-structure data cache on the performance of frame-based multithreaded model is the enhancement of frame parallelism. That improves the efficiency of the model by supplying alternative works enough to tolerate the latency, and thus reduces the execution time.
쓰기 버퍼링과 인터럽트 버퍼링을 이용한 다중 프로세서 시스템 시뮬레이션
윤덕용(Dukyoung Yun),하순회(Soonhoi Ha) 한국정보과학회 2009 한국정보과학회 학술발표논문집 Vol.36 No.2B
다중 프로세서 시스템은 단일 프로세서 시스템에 비해 넓은 설계 공간을 가진다. 하드웨어를 만들기 전제약 조건을 만족하는 지를 확인해 볼 수 있는 가상 프로토타이핑 시스템에서는 최적의 설계 결정을 위해 빠르고 효율적으로 각 설계 공간을 탐색해야 한다. 하지만 타겟 프로세서의 개수가 많아짐에 따라 계산량이 증가하고 각 타겟 프로세서 사이의 동기화로 인한 손실 때문에 더욱더 시뮬레이션 성능이 저하된다. 본 논문에서는 다중 프로세서 호스트 환경에서 다중 프로세서를 가지는 타겟 시스템을 빠르게 시뮬레이션 할 수 있는 기법을 제안한다. 다중 프로세서를 가지는 타겟 시스템에서는 프로세서 사이의 통신이 많기 때문에 각 프로세서 시뮬레이터 실행 순서에는 의존성이 있다. 이러한 의존성을 완화하여 병렬적으로 프로세서 시뮬레이터들이 수행할 수 있도록 하여 시뮬레이션 성능을 높이는 여러 가지 기법들에 대해 소개한다. 실험에서는 소개된 기법들이 적용되었을 때의 JPEG예제의 수행 결과를 통해 제안된 기법들이 시뮬레이션 성능을 높임을 확인할 수 있었다.
클러스터 시스템을 위한 효과적인 OpenMP 디렉티브 변환
기양석(Yang-Suk Kee),하순회(Soonhoi Ha),김진수(Jin-Soo Kim) 한국정보과학회 2003 한국정보과학회 학술발표논문집 Vol.30 No.1A
SMP 클러스터가 고성능 계산을 위한 플랫폼으로 등장함에 따라, 이 시스템을 활용하기 위한 프로그래밍 환경에 대한 관심이 증가하고 있다. 이 논문에서 우리는 ParADE라고 부르는 쉽고, 이식성이 높으며, 고성능의 프로그래밍이 가능한 새로운 프로그래밍 환경을 소개한다. ParADE는 OpenMP 프로그래밍 환경으로 HLRC 변종 프로토콜을 구현한 다중 쓰레드 DSM 시스템을 기반으로 하고 있다. 특별히, 이 논문에서는 성능 개선을 위한 OpenMP 변환기의 역할에 중점을 둔다. OpenMP 변환기는 OpenMP 프로그램 모델과 실행 시간 시스템의 수행 모델 사이에서 가교 역할을 한다. 특히, OpenMP 변환기는 동기화 디렉티브를 변환하고 임계 영역에 있는 작은 변수의 메모리 일관성을 유지하기 위해 집합 통신 함수를 활용한다. 동기화 디렉티브 성능 측정을 위한 마이크로벤치마크 프로그램을 통한 실험에서 ParADE 시스템은 기존의 DSM 시스템에 비해 우수한 성능을 보였다.