RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        링 구조 NUMA 시스템에서 적응형 다중 그레인 원격 캐쉬 설계

        곽종욱,장성태,전주식 한국정보과학회 2003 정보과학회논문지 : 시스템 및 이론 Vol.30 No.10

        메모리 병목현상의 완화와 구현상의 용이함으로 인해 NUMA 시스템이 지난 수년 동안 전형적인 다중 프로세서 시스템으로 자리를 잡아 왔다. 하지만 NUMA 시스템은 그 구조의 특성상 원격 메모리로의 접근 비율이 커질수록 응답 속도의 지연이 심화되므로, NUMA 시스템의 구현에 있어서 원격 캐쉬의 효율적인 설계를 요구한다.본 논문에서는 보다 효율적인 원격 캐쉬의 설계를 목표로 하여, 원격 캐쉬 상에서 실제 응용 프로그램의 공유 단위(Granularity of Sharing)의 패턴을 분석하여 원격 캐쉬의 라인 사이즈를 실행 시간에 가상적으로 변화시킬 수 있는 "다중 그레인 원격 캐쉬" 방식을 제안한다. 그리고 이를 MINT를 통해 모델링한 후 시뮬레이션을 수행하고 그 결과를 분석한다. 시뮬레이션에서는 먼저 Profile-Based 방식을 이용하여 각 응용 프로그램별 최적의 원격 캐쉬 라인 사이즈를 찾아내고, 이를 이용하여 기존의 일반적인 NUMA 시스템에서의 원격 캐쉬와 본 논문에서 제안한 다중 그레인 원격 캐쉬와의 상호 비교를 통해 성능상의 차이점을 비교, 분석한다. 그 후 다중 그레인 원격 캐쉬가 시스템과 응용 프로그램간의 다양한 관계 속에서도 항상 최악의 경우를 피하면서 최적의 경우와 유사한 결과를 가짐을 보인다. Due to the implementation ease and alleviation of memory bottleneck effect, NUMA architecture has dominated in the multiprocessor systems for the past several years. However, because the NUMA system distributes memory in each node, frequent remote memory access is a key factor of performance degradation. Therefore, efficient design of RAC(Remote Access Cache) in NUMA system is critical for performance improvement.In this paper, we suggest Multi-Grain RAC which can adaptively control the RAC line size, with respect to each application behavior. Then we simulate NUMA system with multi-grain RAC using MINT, event-driven memory hierarchy simulator, and analyze the performance results. At first, with profile-based determination method, we verify the optimal RAC line size for each application and, then, we compare and analyze the performance differences among NUMA systems with normal RAC, with optimal line size RAC, and with multi-grain RAC. The simulation shows that the worst case can be always avoided and results are very close to optimal case with any combination of application and RAC format.

      • KCI등재

        Torus Ring : 계층 링 구조의 변형을 통한 상호 연결망의 성능 개선

        곽종욱,전주식,반형진 한국정보과학회 2005 정보과학회논문지 : 시스템 및 이론 Vol.32 No.5

        In multiprocessor systems, interconnection network design is critical for overall system performance. Popular interconnection networks, which are generally considered, are meshes, rings, and hierarchical rings.In this paper, we propose "Torus Ring", which is a modified version of hierarchical ring. Torus Ring has the same complexity as the hierarchical rings, but the only difference is the way it connects the local rings. It has an advantage over the hierarchical rings when the destination of a packet is the neighbor local ring in the reverse direction. Though the average number of hops in Torus Ring is equal to that of the hierarchical rings when assuming the uniform distribution of each transaction, the benefits of the number of hops are expected to be larger because of the spatial locality in the real environment of parallel programming. In the simulation results, latencies in the interconnection network are reduced by up to 19%, and the execution times are reduced by up to 10%. 다중 프로세서 시스템에서 노드 간의 연결을 제공하는 상호 연결망이 전체 시스템의 성능에서 차지하는 비중은 매우 크다. 상호 연결망의 형태는 여러 종류가 있을 수 있으나 Mesh, 링, 계층 링 등의 형태가 많이 사용된다.이 논문에서는 기존의 계층 링을 수정한 Torus Ring을 제안한다. Torus Ring은 계층 링과 완전히 동일한 복잡도를 가지면서도 지역 링 간의 연결 방법만을 변경한 형태의 상호 연결망이다. 이 연결망은 역방향 인접 링에 대한 요청에서 홉 수의 이득을 봄으로써 평균 홉 수를 감소시킨다. 또한 접근의 지역성을 고려하지 않은 균등분포의 가정 하에서도 평균 홉수의 기대값에서 계층링과 동일한 값을 가지며, 실제 병렬 프로그램이 수행되는 환경에서는 인접링에 대한 통신 비율이 증가할 가능성이 크기 때문에 더 큰 홉 수의 이익을 기대할 수 있다. 이에 따라 상호 연결망의 요청과 응답의 지연 시간이 최대 19%까지 감소하였으며, 이러한 응답 지연 시간의 단축이 수행 시간을 최대 10% 정도까지 감소시키는 결과를 가져왔다.

      • 링 구조 NUMA 시스템에서 적응형 다중 그레인 원격 캐쉬 설계

        곽종욱,장성태,전주식 한국정보과학회 2003 정보과학회논문지 : 시스템 및 이론 Vol.30 No.9

        메모리 병목현상의 완화와 구현상의 용이함으로 인해 NUMA 시스템이 지난 수년 동안 전형적인 다중 프로세서 시스템으로 자리를 잡아 왔다. 하지만 NUMA 시스템은 그 구조의 특성상 원격 메모리로의 접근 비율이 커질수록 응답 속도의 지연이 심화되므로, NUMA 시스템의 구현에 있어서 원격 캐쉬의 효율적인 설계를 요구한다. 본 논문에서는 보다 효율적인 원격 캐쉬의 설계를 목표로 하여, 원격 캐쉬 상에서 실제 응용 프로그램의 공유 단위(Granularity of Sharing)의 패턴을 분석하여 원격 캐쉬의 라인 사이즈를 실행 시간에 가상적으로 변화시킬 수 있는“다중 그레인 원격 캐쉬”방식을 제안한다. 그리고 이를 MINT를 통해 모델링한 후 시뮬레이션을 수행하고 그 결과를 분석한다. 시뮬레이션에서는 먼저 Profile-Based 방식을 이용하여 각 응용 프로그램별 최적의 원격 캐쉬 라인 사이즈를 찾아내고, 이를 이용하여 기존의 일반적인 NUMA 시스템에서의 원격 캐쉬와 본 논문에서 제안한 다중 그레인 원격 캐쉬와의 상호 비교를 통해 성능상의 차이점을 비교, 분석한다. 그 후 다중 그레인 원격 캐쉬가 시스템과 응용 프로그램간의 다양한 관계 속에서도 항상 최악의 경우를 피하면서 최적의 경우와 유사한 결과를 가짐을 보인다. Due to the implementation ease and alleviation of memory bottleneck effect, NUMA architecture has dominated in the multiprocessor systems for the past several years. However, because the NUMA system distributes memory in each node, frequent remote memory access is a key factor of performance degradation. Therefore, efficient design of RAC(Remote Access Cache) in NUMA system is critical for performance improvement. In this paper, we suggest Multi-Grain RAC which can adaptively control the RAC line size, with respect to each application behavior Then we simulate NUMA system with multi-grain RAC using MINT, event-driven memory hierarchy simulator. and analyze the performance results. At first, with profile-based determination method, we verify the optimal RAC line size for each application and, then, we compare and analyze the performance differences among NUMA systems with normal RAC, with optimal line size RAC, and with multi-grain RAC. The simulation shows that the worst case can be always avoided and results are very close to optimal case with any combination of application and RAC format.

      • KCI등재

        프로세서의 재사용 정보를 이용하는 개선된 고성능 희생 캐쉬

        곽종욱,장성태,전주식,이현배 한국정보과학회 2004 정보과학회논문지 : 시스템 및 이론 Vol.31 No.12

        Recently, a single or multi processor system uses the hierarchical memory structure to reduce the time gap between processor clock rate and memory access time. A cache memory system includes especially two or three levels of caches to reduce this time gap. Moreover, one of the most important things in the hierarchical memory system is the hit rate in level 1 cache, because level 1 cache interfaces directly with the processor. Therefore, the high hit rate in level 1 cache is critical for system performance. A victim cache, another high level cache, is also important to assist level 1 cache by reducing the conflict miss in high level cache.In this paper, we propose the advanced high level cache management scheme based on the processor reuse information. This technique is a kind of cache replacement policy which uses the frequency of processor's memory accesses and makes the higher frequency address of the cache location reside longer in cache than the lower one. With this scheme, we simulate our policy using Augmint, the event-driven simulator, and analyze the simulation results. The simulation results show that the modified processor reuse information scheme(L1VMR) outperforms the level 1 with the simple victim cache(L1V), 6.7% in maximum and 0.5% in average, and performance benefits become larger as the number of processors increases. 최근의 단일 혹은 다중 프로세서 시스템은 일반적으로 계층적 메모리를 사용한다. 이는 프로세서의 클럭 속도와 메모리로의 데이타 접근 시간의 증가로 인한 시스템 성능 저하를 막기 위한 노력 중 하나이다. 특히 프로세서와의 속도 차이를 줄이기 위해 사용되는 캐쉬는 이단계에서 삼단계에 이르는 다양한 형태의 계층을 포함하는 메모리 시스템으로 구성된다. 이 중에서도 특히 상위 캐쉬는 프로세서와 직접 인터페이스가 이루어지기 때문에, 해당 캐쉬의 적중률은 전체 시스템의 성능을 결정하는 중요한 요소가 된다. 이러한 상위 캐쉬의 하나로써, 희생 캐쉬는 일차 캐쉬의 충돌 미스(Conflict Miss)를 줄이기 위해 추가된 모듈이다. 이는 프로세서 입장에서 보면 절차상 일차 캐쉬와 동등한 관계에서 접근이 이루어진다.본 논문에서는 이러한 상위 캐쉬의 관리 정책 중, 기존의 일차 캐쉬와 희생 캐쉬의 구현시 배제되어 왔던 프로세서의 재사용 정보를 이용하는 캐쉬 라인의 효율적인 관리 정책을 제안하고자 한다. 이 기법은 프로세서의 데이타 사용 빈도에 의한 캐쉬 교체 정책으로, 프로세서에 의해 특정 데이타가 얼마나 자주 접근되었는가에 따라, 사용 빈도수가 높은 데이타에 대해 캐쉬에 위치시키는 시간을 연장시키는 기법이다. 본 논문에서는 제안된 메모리 시스템의 성능을 평가하기 위해, 이를 프로그램 기반 시뮬레이터인 Augmint를 통해 모델링한 후, 시뮬레이션을 수행한다. 그리고 이를 기존의 단순한 희생 캐쉬 교체 정책과 비교하여 성능상의 차이점을 비교 분석 한다. 실험 결과 제안된 L1VMR 기법은 최대 6.7%, 평균 0.5%의 성능 향상을 보였다.

      • 신경망의 분석을 통한 방향 정보를 내포하는 분기 예측 기법

        곽종욱,김주환,전주식,Kwak Jong Wook,Kim Ju-Hwan,Jhon Chu Shik 대한전자공학회 2005 電子工學會論文誌-CI (Computer and Information) Vol.42 No.1

        파이프라인과 슈퍼스칼라 방식 그리고 동적 스케줄링 기법이 일반화된 시스템 구조 하에서, 분기 명령어에 대한 분기 예측 정확도는 프로세서 입장에서 뿐만 아니라 시스템 전체적인 성능에 있어서 큰 영향을 미친다. 이는 분기 예측이 실패했을 경우 잘못된 분기 예측으로 인한 페널티가 발생하기 때문이며, 이러한 페널티는 파이프라인의 길이가 깊어지고 더욱 많은 수의 명령어가 동시에 실행되는 환경일수록 더 큰 값을 가진다. 본 논문에서는 분기 예측의 정확도를 높이기 위해서, 분기 예측과 관련된 신경망을 구축하여 이론 통해 분기 예측에 필요한 각 요소별 가중치의 경향을 분석한다. 그 결과, 높은 가중치를 가지는 구성 요소를 기존의 분기 예측 기법에 추가시킨 새로운 형태의 분기 예측 기법을 제안한다. 제안된 새로운 기법은 실행 구동방식의 시뮬레이터인 Simple Scalar를 통하여 모의실험 되었으며, 실험 결과 본 논문에서 제시한 "분기 명령어의 방향 정보를 내포하는 새로운 기법(direction-gshare)"이 기존의 gshare 기법과 비교하여 동일한 하드웨어 복잡도를 가지면서도 일반적인 Bimodal 기법이나 이단계 적응형 분기 예측 기법 혹은 그의 변형인 gshare 기법에 비하여 분기 예측의 정확도가 최대 4.1%, 평균 1.5% 더 우수한 결과를 보였으며, 최적의 방향 정보 내포량에 대해서는 최대 11.8%, 평균 3.7%의 성능 향상을 보였다. In the pursuit of ever higher levels of performance, recent computer systems have made use of deep pipeline, dynamic scheduling and multi-issue superscalar processor technologies. In this situations, branch prediction schemes are an essential part of modem microarchitectures because the penalty for a branch misprediction increases as pipelines deepen and the number of instructions issued per cycle increases. In this paper, we propose a novel branch prediction scheme, direction-gshare(d-gshare), to improve the prediction accuracy. At first, we model a neural network with the components that possibly affect the branch prediction accuracy, and analyze the variation of their weights based on the neural network information. Then, we newly add the component that has a high weight value to an original gshare scheme. We simulate our branch prediction scheme using Simple Scalar, a powerful event-driven simulator, and analyze the simulation results. Our results show that, compared to bimodal, two-level adaptive and gshare predictor, direction-gshare predictor(d-gshare. 3) outperforms, without additional hardware costs, by up to 4.1% and 1.5% in average for the default mont of embedded direction, and 11.8% in maximum and 3.7% in average for the optimal one.

      • KCI등재

        분기 명령어의 조기 예측을 통한 예측지연시간 문제 해결

        곽종욱,김주환,Kwak, Jong-Wook,Kim, Ju-Hwan 한국정보처리학회 2009 정보처리학회논문지 A Vol.16 No.5

        정교한 분기 예측기의 설계는 오늘날의 프로세서 성능 향상에 중요한 역할을 하게 되었다. 분기 예측의 정확도가 더욱 더 중요해 지면서 정확도의 향상을 위한 다수의 기법들이 제안되었지만, 기존의 연구들은 예측 지연 시간을 간과하는 경향이 있었다. 본 논문에서는 예측 지연 시간 문제를 해결하고자 조기 예측 기법 (ESP, Early Start Prediction)을 제안한다. 조기 예측 기법은 분기 예측에 있어서 활용되는 분기 명령어의 주소 대신 그것과 일대일 대응이 되는 기본 블록의 시작 주소 (BB_SA, Basic Block Start Address)를 이용한다. 즉, 분기 명령어의 주소가 사용되는 기존의 환경에서, BB_SA를 활용하여 조기 예측을 시작함으로써, 예측 지연 시간을 숨긴다. 또한 제안된 기법은 짧은 간격 숨김 기법(short interval hiding technique)을 통해 보다 더 나은 성능 향상을 기대할 수 있다. 실험 결과 본 논문에서 제안된 기법은 예측 지연 시간을 줄임으로써, 예측 지연 시간이 1 사이클인 이상적인 분기 예측기의 성능에 0.25% 이내로 근접한 IPC 결과를 얻었다. 또한 기본 블록의 시작주소와 분기 명령어 사이에 짧은 간격을 가질 경우에 대한 개선 방법을 추가적으로 적용시킬 경우, 기존의 방식과 비교하여 평균 4.2%, 최대 10.1%의 IPC 향상을 가져왔다. Precise branch prediction is a critical factor in the IPC Improvement of modern microprocessor architectures. In addition to the branch prediction accuracy, branch prediction delay have a profound impact on overall system performance as well. However, it tends to be overlooked when the architects design the branch predictor. To tolerate branch prediction delay, this paper proposes Early Start Prediction (ESP) technique. The proposed solution dynamically identifies the start instruction of basic block, called as Basic Block Start Address (BB_SA), and the solution uses BB_SA when predicting the branch direction, instead of branch instruction address itself. The performance of the proposed scheme can be further improved by combining short interval hiding technique between BB_SA and branch instruction. The simulation result shows that the proposed solution hides prediction latency, with providing same level of prediction accuracy compared to the conventional predictors. Furthermore, the combination with short interval hiding technique provides a substantial IPC improvement of up to 10.1%, and the IPC is actually same with ideal branch predictor, regardless of branch predictor configurations, such as clock frequency, delay model, and PHT size.

      • KCI등재

        신경망의 분석을 통한 방향 정보를 내포하는 분기 예측 기법

        곽종욱,전주식,김주환 대한전자공학회 2005 電子工學會論文誌-CI (Computer and Information) Vol.42 No.01

        In the pursuit of ever higher levels of performance, recent computer systems have made use of deep pipeline, dynamic scheduling and multi-issue superscalar processor technologies. In this situations, branch prediction schemes are an essential part of modern microarchitectures because the penalty for a branch misprediction increases as pipelines deepen and the number of instructions issued per cycle increases. In this paper, we propose a novel branch prediction scheme, direction-gshare(d-gshare), to improve the prediction accuracy. At first, we model a neural network with the components that possibly affect the branch prediction accuracy, and analyze the variation of their weights based on the neural network information. Then, we newly add the component that has a high weight value to an original gshare scheme. We simulate our branch prediction scheme using SimpleScalar, a powerful event-driven simulator, and analyze the simulation results. Our results show that, compared to bimodal, two-level adaptive and gshare predictor, direction-gshare predictor(d-gshare.3) outperforms, without additional hardware costs, by up to 4.1% and 1.5% in average for the default amount of embedded direction, and 11.8% in maximum and 3.7% in average for the optimal one. 파이프라인과 슈퍼스칼라 방식 그리고 동적 스케쥴링 기법이 일반화된 시스템 구조 하에서, 분기 명령어에 대한 분기 예측 정확도는 프로세서 입장에서 뿐만 아니라 시스템 전체적인 성능에 있어서 큰 영향을 미친다. 이는 분기 예측이 실패했을 경우 잘못된 분기 예측으로 인한 페널티가 발생하기 때문이며, 이러한 패널티는 파이프라인의 깊이가 깊어지고 더욱 많은 수의 명령어가 동시에 실행되는 환경일수록 더 큰 값을 가진다. 본 논문에서는 분기 예측의 정확도를 높이기 위해서, 분기 예측과 관련된 신경망을 구축하여 이를 통해 분기 예측에 필요한 각 요소별 가중치의 경향을 분석한다. 그 결과, 높은 가중치를 가지는 구성 요소를 기존의 분기 예측 기법에 추가시킨 새로운 형태의 분기 예측 기법을 제안한다. 제안된 새로운 기법은 실행 구동 방식의 시뮬레이터인 SimpleScalar를 통하여 모의실험 되었으며, 실험 결과 본 논문에서 제시한 "분기 명령어의 방향 정보를 내포하는 새로운 기법(direction-gshare)"이 기존의 gshare 기법과 비교하여 동일한 하드웨어 복잡도를 가지면서도 일반적인 Bimodal 기법이나 이단계 적응형 분기 예측 기법 혹은 그의 변형인 gshare 기법에 비하여 분기 예측의 정확도가 최대 4.1%, 평균 1.5% 더 우수한 결과를 보였으며, 최적의 방향 정보 내포량에 대해서는 최대 11.8%, 평균 3.7%의 성능 향상을 보였다.

      • KCI등재

        고성능 프로세서를 위한분기 명령어의 동적 History 길이 조절 기법

        곽종욱,장성태,전주식 대한전자공학회 2007 電子工學會論文誌-CI (Computer and Information) Vol.44 No.2

        Branch prediction accuracy is critical for the overall system performance. Branch miss-prediction penalty is the one of the significant performance limiters for improving processor performance, as the pipeline deepens and the instruction issued per cycle increases. In this paper, we propose "Dynamic Per-Branch History Length Fitting Method" by tracking the data dependencies among the register writing instructions. The proposed solution first identifies the key branches, and then it selectively uses the histories of the key branches. To support this mechanism, we provide a history length adjustment algorithm and a required hardware module. As the result of simulation, the proposed mechanism outperforms the previous fixed static method, up to 5.96% in prediction accuracy. Furthermore, our method introduces the performance improvement, compared to the profiled results which are generally considered as the optimal ones. 분기 명령어에 대한 분기 예측 정확도는 시스템 전체의 성능 향상에 중대한 영향을 미친다. 본 논문에서는 분기 예측의 정확도를 높이기 위한 방법의 하나로, 각 분기 명령어 별로 사용되는 History의 길이를 동적으로 조절할 수 있는 "각 분기별 동적 History 길이 조절 기법"을 소개한다. 제안된 기법은, 분기 예측에 있어서 관련된 레지스터들 사이의 데이터 종속성을 추적하여, 최종적으로 관련이 있는 레지스터를 포함하도록 유도하는 분기를 파악한 후, 관련 분기의 History만을 사용하게 해 주는 방식이다. 이를 위해 본 논문에서는, 데이터 종속성을 추적할 수 있는 알고리즘과 관련 하드웨어 모듈을 소개하였다. 실험 결과 제안된 기법은, 기존의 고정 길이 History를 사용하는 방식에 비하여 최대 5.96% 분기 예측 정확도의 향상을 가져 왔으며, 프로파일링을 통해 확인된 각 응용 프로그램 별 Optimal History 길이와 비교해서도 성능 향상을 보였다.

      • KCI등재

        분기 정보의 추측적 사용과 효율적 복구 기법

        곽종욱,Kwak, Jong-Wook 한국정보처리학회 2008 정보처리학회논문지 A Vol.15 No.4

        분기 명령어에 대한 예측 정확도는 시스템의 전체 성능 향상에 중대한 영향을 미친다. 분기 정보의 추측적 사용은 미완료 분기에 대한 히스토리 정보를 추측적으로 사용하여 분기 예측을 수행한다. 이러한 방식은 분기 명령어의 가장 최근 기록을 일관되게 사용할 수 있도록 도와주기 때문에 분기 예측의 정확도 향상에 크게 기여한다. 하지만 미완료 분기 히스토리는 올바르지 못한 정보일 수 있으며, 이런 경우 적절한 복구기법이 필요하다. 이를 위해 본 논문에서는 분기 정보의 추측적 사용에 대한 성능 향상의 정도를 살피고, 분기 정보의 추측적 사용에 대한 필요성을 제시한다. 아울러, 분기 정보의 추측적 사용으로 인해 요구되는 적절한 복구 기법을 제안한다. 제안된 기법은 전역 분기 히스토리를 사용하는 분기 예측기와 지역 분기 히스토리를 사용하는 분기 예측기에 각각 적용 될 수 있는 방식들이다. 모의실험을 통해 본 논문에서 제안된 방식의 성능을 분석한 결과, 본 논문에서 제안된 기법이 최대 5.64%의 성능향상을 제공하였다. 아울러 프로그램 수행의 정확성을 해치지 않으면서 기존의 연구와 비교하여 90% 이상의 하드웨어 요구량의 감소를 가져왔다. Branch prediction accuracy is critical for system performance in modern microprocessor architectures. The use of speculative update branch history provides substantial accuracy improvement in branch prediction. However, speculative update branch history is the information about uncommitted branch instruction and thus it may hurts program correctness, in case of miss-speculative execution. Therefore, speculative update branch history requires suitable recovery mechanisms to provide program correctness as well as performance improvement. In this paper, we propose recovery logics for speculative update branch history. The proposed solutions are recovery logics for both global history and local history. In simulation results, our solution provides performance improvement up to 5.64%. In addition, it guarantees the program correctness and almost 90% of additional hardware overhead is reduced, compared to previous works.

      • KCI등재

        분기 정보의 추측적 사용과 효율적 복구 기법

        곽종욱 한국정보처리학회 2008 정보처리학회논문지. 컴퓨터 및 통신시스템 Vol.15 No.4

        Branch prediction accuracy is critical for system performance in modern microprocessor architectures. The use of speculative update branch history provides substantial accuracy improvement in branch prediction. However, speculative update branch history is the information about uncommitted branch instruction and thus it may hurts program correctness, in case of miss-speculative execution. Therefore, speculative update branch history requires suitable recovery mechanisms to provide program correctness as well as performance improvement. In this paper, we propose recovery logics for speculative update branch history. The proposed solutions are recovery logics for both global history and local history. In simulation results, our solution provides performance improvement up to 5.64%. In addition, it guarantees the program correctness and almost 90% of additional hardware overhead is reduced, compared to previous works. 분기 명령어에 대한 예측 정확도는 시스템의 전체 성능 향상에 중대한 영향을 미친다. 분기 정보의 추측적 사용은 미완료 분기에 대한 히스토리 정보를 추측적으로 사용하여 분기 예측을 수행한다. 이러한 방식은 분기 명령어의 가장 최근 기록을 일관되게 사용할 수 있도록 도와주기 때문에 분기 예측의 정확도 향상에 크게 기여한다. 하지만 미완료 분기 히스토리는 올바르지 못한 정보일 수 있으며, 이런 경우 적절한 복구 기법이 필요하다. 이를 위해 본 논문에서는 분기 정보의 추측적 사용에 대한 성능 향상의 정도를 살피고, 분기 정보의 추측적 사용에 대한 필요성을 제시한다. 아울러, 분기 정보의 추측적 사용으로 인해 요구되는 적절한 복구 기법을 제안한다. 제안된 기법은 전역 분기 히스토리를 사용하는 분기 예측기와 지역 분기 히스토리를 사용하는 분기 예측기에 각각 적용 될 수 있는 방식들이다. 모의실험을 통해 본 논문에서 제안된 방식의 성능을 분석한 결과, 본 논문에서 제안된 기법이 최대 5.64%의 성능향상을 제공하였다. 아울러 프로그램 수행의 정확성을 해치지 않으면서 기존의 연구와 비교하여 90% 이상의 하드웨어 요구량의 감소를 가져왔다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼