RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 32 비트 RISC 프로세서의 MMU & Cache 구조에 관한 연구

        정홍균,류광기 한밭대학교 2007 한밭대학교 논문집 Vol.5 No.1

        본 논문에서는 SoC 의 핵심 모율인 CPU 코어중의 하나인 32비트 RISC 프로세서에 구현되어 있는 MMU(Memory Management Unit) 와 Cache구조를 분석하고 검증하였다 MMU 와 Cache는 프로세서의 성 능을 향상시키는 역할을 한다 본 논문에서는 물리주소의 하위 비트들과 상위 비트틀을 교환하는 해쉬 기 반 TLB(Translation Lookaside Buffer) 를 사용한 MMU와 각 메모리의 위치가 cache내의 정확히 한 곳에 만 사상되는 직접사상 방식을 사용한 Cache를 분석하고 검증하여 MMU와 Cache의 사용유무에 따른 프로 세서의 성능 향상 정도를 시율레이션을 통하여 확인하였다 In this paper, it is analyzed and verified the architecture of MMU and Cache in 32-bit RISC processor that is one of the CPU cores which are a essential module of the Soc. The MMU and the Cache plays the role of improving the perfonnance of processor. In this paper, it is analysed and verified MMU using Hash based TLB and Cache using direct-mapping and confinned the degree of perfonnance improvement of the processor whether MMU and Cache are used or not.

      • KCI등재

        임베디드 RISC 코어의 성능 및 전력 개선

        정홍균,류광기,Jung, Hong-Kyun,Ryoo, Kwang-Ki 한국정보통신학회 2010 한국정보통신학회논문지 Vol.14 No.2

        본 논문에서는 임베디드 RISC 코어의 성능 및 전력 소모 개선을 위해 동적 분기예측 구조, 4원 집합연관 캐쉬 구조, ODC 연산을 이용한 클록 게이팅 기법을 제시한다. 동적 분기 예측 구조는 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB (Branch Target Buffer)를 사용한다. 4원 집합연관 캐쉬는 네 개의 메모리 블록을 한 개의 캐쉬 블록에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 낮고 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시킨다. ODC를 이용한 클록게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC 조건을 찾아 클록 게이팅 로직을 삽입함으로써 동적 소비전력을 줄인다. 제시한 구조들을 임베디드 RISC 코어인 OpenRISC 코어에 적용하여 성능을 측정한 결과, 기존 OpenRISC 코어 대비 실행시간이 약 29% 향상 되었고, Chartered $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 OpenRISC 코어 대비 소비전력이 16% 이상 감소하였다. This paper presents a branch prediction algorithm and a 4-way set-associative cache for performance improvement of embedded RISC core and a clock-gating algorithm using ODC (Observability Don't Care) operation to improve the power consumption of the core. The branch prediction algorithm has a structure using BTB(Branch Target Buffer) and 4-way set associative cache has lower miss rate than direct-mapped cache. Pseudo-LRU Policy, which is one of the Line Replacement Policies, is used for decreasing the number of bits that store LRU value. The clock gating algorithm reduces dynamic power consumption. As a result of estimation of performance and dynamic power, the performance of the OpenRISC core applied the proposed architecture is improved about 29% and dynamic power of the core using Chartered $0.18{\mu}m$ technology library is reduced by 16%.

      • 캐쉬메모리의 연관성을 이용한 RISC 프로세서의 성능 분석

        정홍균,류광기 한밭대학교 2008 한밭대학교 논문집 Vol.6 No.1

        본 논문에서는 직접사상 캐쉬와 집합연관 캐쉬 중 사원 집합연관 캐쉬를 32비트 프로세서 내에 구현하여 캐쉬 연관정도에 따른 32비트 RISC 프로세서의 성능올 비교하였다. 직접사상 캐시는 매핑 규칙 이 간단하여 빠르다는 장점이 있지만, 주 메모리의 주소에 따라 매핑될 수 있는 캐쉬 라인이 하나밖에 존 재하지 않기 때문에 충돌에 의한 캐쉬 미스로 인해 성능이 많이 떨어질 수 있다. 사원집합연관 캐쉬는 네 개의 메인메모리 블록이 정해진 한 개의 캐시 블록에 사상되는 구조로 되어있어 직접사상 캐쉬에 비해 접 근 실패율이 적다. 직접사상 캐쉬와 사원 집합연관 캐쉬의 성능올 비교하기 위해 SoC 플랫홈의 하드웨어 모델을 이용한 HDL 시율레이션을 수행한 결과 사원 집합연관 캐쉬는 직접사상 캐쉬 대비 실행 시간이 716,OOOns 만큼 감소하였음을 확인하였다. 또한 waveplay프로그램을 이용한 FPGA 에율레이션을 수행한 결과 사원 집합연관 캐쉬는 직접사상 캐쉬 대비 실행 클럭 수가 1313 개 감소한 것을 확인함으로써 32비트 RISC 프로세서내의 캐쉬를 집합연관 캐쉬로 구현하는 것이 32비트 프로세서의 성능을 향상됨이 입증되었 다. In this paper, 4-way set-associative cache, which is one part of direct-mapped cache and set-associative cache, is implemented in 32-bit processor to compare the perfonnance of the 32-bit RISC processor according to the associativity. The advantage of direct-mapped cache is fast because of the easily mapping rule, but there is only cache line which can be mapped to the main memory address, so the perfonnance is low because of the cache miss due to the conflict. The structure of 4-way set-associative is that 4 main memory blocks are mapped to only one cache blocks, so the access miss rate is lower than direct-mapped cache. In order to compare the perfonnance of direct-mapped cache and 4-way set-associative cache, HDL simulation is used the OpenRISC based SoC platfonn hardware model. As a result, the operation time of 4-way set-associative cache decreased by 716,OOOns comparing with direct-mapped cache. As a result of achieving FPGA emulation using waveplay program, the clock number of the 4-way set-associative cache decreased by 1313 comparing with direct-mapped cache, so it is proved that the perfonnance is improved using 4-way set-associative cache to implement the 32-bit RISC processor cache

      • KCI등재

        HEVC 복호기의 연산 복잡도 감소를 위한 화면내 예측 하드웨어 구조 설계

        정홍균,류광기,Jung, Hongkyun,Ryoo, Kwangki 한국정보통신학회 2013 한국정보통신학회논문지 Vol.17 No.5

        본 논문에서는 HEVC 복호기내 화면내 예측의 연산 복잡도를 감소시키기 위해 공유 연산기, 공통 연산기, 고속 smoothing 결정 알고리즘, 고속 필터계수 생성 알고리즘을 적용한 하드웨어 구조를 제안한다. 공유 연산기는 공통수식을 공유하여 smoothing 과정의 연산 중복성을 제거하고, DC모드의 평균값을 미리 계산하여 수행 사이클 수를 감소시킨다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 고속 smoothing 결정 알고리즘은 비트 비교기만을 사용하고, 고속 필터계수 생성 알고리즘은 곱셈연산 대신 LUT를 사용하여 연산 개수, 하드웨어 면적과 처리 시간을 감소시킨다. 또한 제안하는 구조는 2개의 공유 연산기와 8개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 구조를 TSMC 0.13um CMOS 공정 라이브러리를 이용하여 합성한 결과 게이트 수는 40.5k, 최대 동작 주파수는 164MHz이다. HEVC 참조 소프트웨어 HM 7.1에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조 대비 93.7% 감소하였다. In this paper, an intra prediction hardware architecture is proposed to reduce computational complexity of intra prediction in HEVC decoder. The architecture uses shared operation units and common operation units and adopts a fast smoothing decision algorithm and a fast algorithm to generate coefficients of a filter. The shared operation unit shares adders processing common equations to remove the computational redundancy. The unit computes an average value in DC mode for reducing the number of execution cycles in DC mode. In order to reduce operation units, the common operation unit uses one operation unit generating predicted pixels and filtered pixels in all prediction modes. In order to reduce processing time and operators, the decision algorithm uses only bit-comparators and the fast algorithm uses LUT instead of multiplication operators. The proposed architecture using four shared operation units and eight common operation units which can reduce execution cycles of intra prediction. The architecture is synthesized using TSMC 0.13um CMOS technology. The gate count and the maximum operating frequency are 40.5k and 164MHz, respectively. As the result of measuring the performance of the proposed architecture using the extracted data from HM 7.1, the execution cycle of the architecture is about 93.7% less than the previous design.

      • SoC 플랫폼을 이용한 H.264/AVC 복호기의 HW/SW 통합 설계

        정홍균,류광기 한밭대학교 2009 한밭대학교 논문집 Vol.7 No.1

        H.264/AVC는 기존 동영상 압축 표준에 비해 압축성능이 높지만, H.263과 비교하였을 때 메모리 접근 횟수 및 연산의 복잡도가 2 배 이상 증가한다. 본 논문에서는 낮은 복잡도와 고효율의 압축성능을 갖 는 H.264/AVC 복호기를 설계하기 위해 OpenRISC기반 SoC 플랫폼을 이용한 하드웨어 소프트웨어 통합 설계 방법론을 적용한다. H.264/AVC 복호기의 기능 블록 중 많은 연산량을 차지하고 반복적으로 수행하 는 역변환 및 역양자화 기능블록을 하드웨어로, 그 외 기능블록들을 소프트웨어로 설계하였다. OpenRISC 기반 SoC 플랫폼을 이용하여 설계된 H.264/AVC 복호기의 성능을 측정한 결과, H.264/AVC 복호기의 역 변환 및 역양자화 블록을 소프트웨어로 구현하였을 때보다 하드웨어로 구현하였을 때 성능이 9배 이상 향 상함으로써, H.264/AVC 복호기를 소프트웨어로만 구현하였을 때보다 하드웨어와 소프트웨어로 분할하여 구현하였을 때 성능이 향상됨을 입증하였다.

      • KCI등재

        스케일링과 변환계수 복호를 위한 효율적인 하드웨어 설계

        정홍균,류광기,Jung, Hongkyun,Ryoo, Kwangki 한국정보통신학회 2012 한국정보통신학회논문지 Vol.16 No.10

        본 논문에서는 H.264/AVC 복호기의 역변환과 역양자화를 위한 효율적인 하드웨어 구조를 제안한다. 기존 역변환 및 역양자화기에서는 AC계수와 DC계수를 복호하는 순서가 다르다. 색차 DC계수와 인트라 $16{\times}16$ 모드에서 휘도 DC계수는 역변환을 수행하고 역양자화를 수행하는 반면에, 휘도 및 색차 AC계수는 역양자화를 수행하고 역변환을 수행하기 때문에 하드웨어로 구현시 제어 복잡도가 증가한다. 제안하는 구조는 DC계수와 AC계수에 관계없이 역양자화를 수행한 후 역변환을 수행하여 제어 복잡도를 감소시키고, 역양자화 연산을 공통 연산기를 사용하여 처리함으로써 계산 복잡도가 감소한다. 기존 역양자화기에는 나눗셈 연산을 포함하고 있어 복호하는 순서를 변경할 경우 오차가 발생하기 때문에 나눗셈 연산을 역변환 후에 수행하여 오차를 방지한다. 또한, 역변환기와 역양자화기를 3단 파이프라인으로 구성하고 수평 IDCT와 수직 IDCT를 병렬로 구현하여 수행 사이클을 감소시켰다. 제안하는 역변환기와 역양자화기의 매크로블록 당 처리되는 사이클 수를 비교 분석한 결과, 기존 구조 대비 45%이상 향상된 결과를 얻었다. In this paper, an efficient hardware architecture is proposed for inverse transform and inverse quantization of H.264/AVC decoder. The previous inverse transform and quantization architecture has a different AC and DC coefficients decoding order. In the proposed architecture, IQ is achieved after IT regardless of the DC or AC coefficients. A common operation unit is also proposed to reduce the computational complexity of inverse quantization. Since division operation is included in the previous architecture, it will generate errors if the processing order is changed. In order to solve the problem, the division operation is achieved after IT to prevent errors in the proposed architecture. The architecture is implemented with 3-stage pipeline and a parallel vertical and horizontal IDCT is also implemented to reduce the operation cycle. As a result of analyzing the proposed ITIQ architecture operation cycle for one macroblock, the proposed one has improved by 45% than the previous one.

      • KCI등재

        OpenRISC 코어의 성능향상을 위한 캐쉬 구조 설계

        정홍균(Hongkyun Jung),류광기(Kwangki Ryoo) 대한전자공학회 2009 電子工學會論文誌-SD (Semiconductor and devices) Vol.46 No.1

        최근 마이크로프로세서의 성능이 빠르게 향상됨에 따라 주 메모리의 접근 시간이 증가하고 있어 캐쉬의 필요성이 증대되고 있다. 직접사상 캐쉬는 주 메모리의 각각의 블록이 하나의 캐쉬 라인에 사상되는 구조로서 사상되는 규칙이 간단하지만 서로 다른 블록이 하나의 캐쉬 라인에 사상될 경우 블록의 충돌에 의한 접근 실패율이 집합연관 캐쉬에 비해 높아진다. 본 논문에서는 OpenRISC 코어의 직접사상의 단점을 개선하기 위해 사원 집합연관 캐쉬 구조를 제시한다. 제시한 캐쉬는 주 메모리의 네 개의 블록이 하나의 캐쉬 라인에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 감소한다. 또한 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시켰다. FPGA 에뮬레이션을 이용하여 사원 집합연관 캐쉬를 포함한 OpenRISC 코어를 검증하였고, 테스트 프로그램을 이용하여 성능을 측정한 결과, 사원 집합연관 캐쉬를 포함한 OpenRISC 코어의 성능이 기존의 OpenRISC 코어의 성능에 비해 약 50% 향상되었고, 미스율은 15%이상 감소하였다. As the recent performance of microprocessor is improving quickly, the necessity of cache is growing because of the increase of the access time of main memory. Every block of direct-mapped cache maps to one cache line. Although the mapping rule is simple, if different blocks map to one cache line, the miss ratio will be higher than the set-associative cache due to conflicts. In this paper, for the improvement of the direct-mapped cache of OpenRISC, 4-way set-associative cache is proposed. Four blocks of the main memory of the proposed cache map to one cache line so that the miss ratio is less than the direct-mapped cache. Pseudo-LRU Policy, which is one of the Line Replacement Policies, is used for decreasing the number of bits that store LRU value. The OpenRISC core including the 4-way set-associative cache was verified with FPGA emulation. As the result of performance measurement using test program, the performance of the OpenRISC core including the 4-way set-associative cache is higher than the previous one by 50% and the decrease of miss ratio is more than 15%.

      • 고성능 HEVC 복호기를 위한 화면내 예측기의 효율적인 하드웨어 설계

        정홍균 ( Hongkyun Jung ),강석민 ( Sukmin Kang ),류광기 ( Kwangki Ryoo ) 한국정보처리학회 2012 한국정보처리학회 학술대회논문집 Vol.19 No.2

        본 논문에서는 차세대 비디오 압축 표준인 HEVC(High Efficiency Video Coding) 복호기의 연산량과 하드웨어 면적을 감소시키기 위하여 화면내 예측 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 공통 수식에 대한 연산을 공유하는 공유 연산기를 사용하여 연산량 및 연산기 개수를 감소시키고, 4x4 PU와 64x64 PU의 필터링 수행 여부에 대한 연산을 수행하지 않고 나머지 PU에 대해서는 LUT를 이용하여 연산을 수행하기 때문에 연산량 및 연산 시간을 감소시킨다. 또한 하나의 공통 연산기만을 사용하여 예측 픽셀을 생성하기 때문에 하드웨어 면적이 감소한다. 제안하는 구조를 TSMC 0.18um 공정을 이용하여 합성한 결과 최대 동작 주파수는 100MHz이고, 이트 수는 140,697이다. 4x4 PU를 기준으로 제안하는 구조의 처리 사이클 수는 11 사이클로 기존 구조대비 54% 감소하였고, 16개 참조 픽셀의 필터링 처리를 기준으로 제안하는 구조의 덧셈 연산기 개수는 37개로 표준 draft 6에 비해 22.9% 감소하였다.

      • KCI등재

        고성능 잔여 데이터 복호기를 위한 최적화된 하드웨어 설계

        정홍균(Jung, Hong-Kyun),류광기(Ryoo, Kwang-Ki) 한국산학기술학회 2012 한국산학기술학회논문지 Vol.13 No.11

        본 논문에서는 H.264/AVC의 고성능 잔여 데이터 복호기를 위해 최적화된 하드웨어 구조를 제안한다. 제안 하는 하드웨어 구조는 새로운 역영자화 수식들을 적용한 공통 연산기를 갖는 병렬 역양자화기와 병렬 역변환기를 통 합한 하드웨어 구조이다. 새로운 역양자화 수식들은 기존 수식에서 나눗셈 연산을 제거하여 연산량 및 처리시간을 감 소시키고 새로운 수식들을 처리하기 위해 곱셈기와 왼쪽 쉬프터로 구성된 하나의 공통 연산기를 사용한다. 역양자화 기는 4개의 공통 연산기를 병렬처리하기 때문에 4x4 블록의 역양자화 수행 사이클 수를 1 사이클로 감소시키고, 제 안하는 역변환기는 8개의 역변환 연산기를 사용하여 4x4 블록의 역변환 수행 사이클 수를 1 사이클로 감소시킨다. 또한 제안하는 구조는 역양자화 연산과 역변환 연산을 동시에 수행하기 때문에 하나의 4x4 블록을 처리하는 데 1 사 이클이 소요되어 수행 사이클 수가 감소한다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하 여 합성한 결과 게이트 수는 21.9k, critical path delay는 5.5ns이고, 최대 동작 주파수는 181MHz이다. 최대 동작 주파 수에서 제안하는 구조의 throughput은 2.89Gpixels/sec이다. 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하 여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조들 대비 88.5% 이상 향상되었다. In this paper, an optimized residual data decoder architecture is proposed to improve the performance in H.264/AVC. The proposed architecture is an integrated architecture that combined parallel inverse transform architecture and parallel inverse quantization architecture with common operation units applied new inverse quantization equations. The equations without division operation can reduce execution time and quantity of operation for inverse quantization process. The common operation unit uses multiplier and left shifter for the equations. The inverse quantization architecture with four common operation units can reduce execution cycle of inverse quantization to one cycle. The inverse transform architecture consists of eight inverse transform operation units. Therefore, the architecture can reduce the execution cycle of inverse transform to one cycle. Because inverse quantization operation and inverse transform operation are concurrency, the execution cycle of inverse transform and inverse quantization operation for one 4x4 block is one cycle. The proposed architecture is synthesized using Magnachip 0.18um CMOS technology. The gate count and the critical path delay of the architecture are 21.9k and 5.5ns, respectively. The throughput of the architecture can achieve 2.89Gpixels/sec at the maximum clock frequency of 181MHz. As the result of measuring the performance of the proposed architecture using the extracted data from JM 9.4, the execution cycle of the proposed architecture is about 88.5% less than that of the existing designs.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼