RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        HEVC를 위한 고성능 다중 모드 2D 변환 블록의 설계

        김기현,류광기,Kim, Ki-Hyun,Ryoo, Kwang-Ki 한국정보통신학회 2014 한국정보통신학회논문지 Vol.18 No.2

        본 논문에서는 4가지의 TU를 동일한 사이클에 처리하는 고성능 다중모드 2D 변환기의 하드웨어 구조를 제안한다. HEVC의 변환 기술은 고해상도, 고화소의 영상을 높은 효율로 압축하기 위해 4가지의 화소 단위 TU를 지원하여 각각의 변환 연산을 수행한 후 최적의 모드를 찾는다. 제안하는 변환기는 변환 행렬 계수들 간의 관계를 분석하여 공통 연산기를 사용한 구조로 설계하여 4가지의 TU 모드 행렬 연산을 처리하는 사이클 수가 동일하게 35cycle로 처리된다. TSMC 018nm CMOS 공정 라이브러리를 사용해 합성한 결과 $4k(3840{\times}2160)@30fps$의 영상을 기준으로 최대 동작주파수는 400MHz이고 총 게이트 수는 214k가 소요되었으며, 10-Gpels/cycle의 처리량을 갖는다. This paper proposes the hardware architecture of high performance multi-mode 2D forward transform for HEVC which has same number of cycles for processing any type of four TUs and yield high throughput. In order to make the original image which has high pixel and high resolution into highly compressed image effectively, the transform technique of HEVC supports 4 kinds of pixel units, TUs and it finds the optimal mode after performs each transform computation. As the proposed transform engine uses the common computation operator which is produced by analyzing the relationship among transform matrix coefficients, it can process every 4 kinds of TU mode matrix operation with 35cycles equally. The proposed transform block was designed by Verilog HDL and synthesized by using TSMC 0.18um CMOS processing technology. From the results of logic synthesis, the maximum operating frequency was 400MHz and total gate count was 214k gates which has the throughput of 10-Gpels/cycle with the $4k(3840{\times}2160)@30fps$ image.

      • KCI등재

        H.264/AVC를 위한 고성능 움직임 예측 하드웨어 설계

        박승용,류광기,Park, Seungyong,Ryoo, Kwangki 대한전자공학회 2013 전자공학회논문지 Vol.50 No.9

        본 논문에서는 고성능 H.264/AVC 부호기 설계를 위해 낮은 연산 복잡도를 가지는 움직임 예측 알고리즘과 하드웨어 구조를 제안한다. 제안하는 움직임 예측 알고리즘은 주변 매크로블록들의 움직임 벡터와 방향성으로 유동적인 초기 탐색점과 탐색패턴으로 정확한 초기 탐색점을 설정한다. 주변 매크로블록들의 움직임 벡터를 사용하여 적은 수의 탐색점으로 움직임 예측이 가능하며, 적은 수의 탐색점으로 인해 연산량과 수행 사이클을 감소시킨다. 제안한 움직임 예측 하드웨어를 TSMC 0.18um CMOS 표준 셀 라이브러리 이용해 합성한 결과 217.92k 개의 로직 게이트로 구현되며 최대동작 주파수는 166MHz이다. 제안한 움직임 예측의 하드웨어 구조는 하나의 매크로 블록을 부호화 하는데 312사이클 소요되어 기존 하드웨어 구조대비 성능이 69% 향상됨을 확인하였다. In this paper, a new motion estimation algorithm with low-computational complexity is proposed to improve the performance of H.264/AVC. The proposed architecture uses the directions of the median motion vector which is computed by the motion vectors of the three neighbor macroblocks in Integer Motion Estimation. By using the directions of the vector, the proposed architecture has a single computational level instead of multi-computational levels in Integer Motion Estimation. The proposed motion estimation is synthesized using the TSMC 0.18um standard cell library. The synthesis result shows that the gate count is about 217.92K at 166MHz and it was improved about 69% compared with previous one.

      • KCI등재

        높은 처리량을 갖는 HEVC CABAC 복호기 하드웨어 설계

        김한식,류광기,Kim, Hansik,Ryoo, Kwangki 한국정보통신학회 2013 한국정보통신학회논문지 Vol.17 No.2

        본 논문에서는 높은 데이터 처리량을 갖는 CABAC 하드웨어 구조를 제안한다. 제안하는 CABAC 복호기는 데이터의 의존성을 유지하면서 한 사이클의 두 개의 bin을 처리한다. 또한 문맥의 전환이나 확률 상태가 변환될 수 있기 때문에 결과 값을 선택적으로 처리할 수 있는 구조로 구현하였다. 확률 구간을 읽어오는 동안 Offset과 Range를 선 연산하고, Offset에 비트를 추가하여 연산함으로써 병목현상을 완화시켰다. 제안하는 CABAC 복호기의 동작 주파수를 비교 분석한 결과, 기존 구조 대비 40%이상 향상된 결과를 얻었다. This paper proposes an efficient hardware architecture of CABAC for HEVC decoder. The proposed method is structured to handle two bins in one cycle, while preserving data dependencies of the CABAC. In addition, the processing time of the proposed architecture is reduced because the operation using Offset and Range is processed while the architecture reads rLPS from rLPSROM. As a result of analyzing operating frequency of the proposed CABAC architecture, the proposed architecture has improved by 40% than the previous one.

      • KCI등재

        임베디드 RISC 코어의 성능 및 전력 개선

        정홍균,류광기,Jung, Hong-Kyun,Ryoo, Kwang-Ki 한국정보통신학회 2010 한국정보통신학회논문지 Vol.14 No.2

        본 논문에서는 임베디드 RISC 코어의 성능 및 전력 소모 개선을 위해 동적 분기예측 구조, 4원 집합연관 캐쉬 구조, ODC 연산을 이용한 클록 게이팅 기법을 제시한다. 동적 분기 예측 구조는 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB (Branch Target Buffer)를 사용한다. 4원 집합연관 캐쉬는 네 개의 메모리 블록을 한 개의 캐쉬 블록에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 낮고 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시킨다. ODC를 이용한 클록게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC 조건을 찾아 클록 게이팅 로직을 삽입함으로써 동적 소비전력을 줄인다. 제시한 구조들을 임베디드 RISC 코어인 OpenRISC 코어에 적용하여 성능을 측정한 결과, 기존 OpenRISC 코어 대비 실행시간이 약 29% 향상 되었고, Chartered $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 OpenRISC 코어 대비 소비전력이 16% 이상 감소하였다. This paper presents a branch prediction algorithm and a 4-way set-associative cache for performance improvement of embedded RISC core and a clock-gating algorithm using ODC (Observability Don't Care) operation to improve the power consumption of the core. The branch prediction algorithm has a structure using BTB(Branch Target Buffer) and 4-way set associative cache has lower miss rate than direct-mapped cache. Pseudo-LRU Policy, which is one of the Line Replacement Policies, is used for decreasing the number of bits that store LRU value. The clock gating algorithm reduces dynamic power consumption. As a result of estimation of performance and dynamic power, the performance of the OpenRISC core applied the proposed architecture is improved about 29% and dynamic power of the core using Chartered $0.18{\mu}m$ technology library is reduced by 16%.

      • KCI등재

        묵시적 가중 예측기법을 이용한 저 메모리 대역폭 인터 예측기 설계

        김진영,류광기,Kim, Jinyoung,Ryoo, Kwangki 한국정보통신학회 2012 한국정보통신학회논문지 Vol.16 No.12

        본 논문에서는 H.264/AVC 인코더의 성능 향상을 위해 다중 참조 프레임 기법과 묵시적 가중 예측 기법을 이용하고 낮은 외부 메모리 접근율을 위해 이전 참조 프레임 데이터를 재사용하는 인터 예측기 하드웨어 구조를 제안한다. 참조 소프트웨어JM16.0과 비교하여 참조 프레임 접근율이 약 24%만큼 감소하고 참조 영역 메모리가 약 46%만큼 감소하였다. 통합 구조는 Verilog HDL로 설계되고 Magnachip 0.18um공정으로 합성한 결과 게이트 수는 약 2,061k 이고 91Mhz로 동작한다. In this paper, for improving the H.264/AVC hardware performance, we propose an inter predictor hardware design using a multi reference frame selector and an implicit weighted predictor. previous reference frame are reused for Low Memory Bandwidth. The size of the reference memory in the predictor was reduced by about 46% and the external memory access rate was reduced by about 24% compared with the one in the reference software JM16.0. We designed the proposed system with Verilog-HDL and synthesized inter predictor circuit using the Magnachip 0.18um CMOS standard cell library. The synthesis result shows that the gate count is about 2,061k and the design can run at 91MHz.

      • KCI등재

        H.264/AVC 복호기를 위한 고성능 연산처리 인트라 예측기 설계

        김선철,류광기,Jin, Xianzhe,Ryoo, Kwangki 한국정보통신학회 2012 한국정보통신학회논문지 Vol.16 No.11

        This paper proposes a parallel operation intra predictor for H.264/AVC decoder. In previous intra predictor design, common operation units were designed for 17 prediction modes in order to compute more effectively. However, it was designed by analyzing the equation applied to one pixel. So, there are four operation units for computing 16 pixels in a $4{\times}4$ block and they need four cycles. In this paper, the proposed intra predictor contains T3(Three Type Transform) operation unit for parallel operation. It divides 17 modes into 3 types to calculate 16 pixels of a $4{\times}4$ block in only one cycle and needs 16 cycles minimum in 16x16 block. As the result of the experiment, in terms of processing cycle, the performance of proposed intra predictor is 58.95% higher than the previous one. 본 논문에서는 H.264/AVC 복호기를 위한 고성능 연산처리 인트라 예측기를 제안한다. 기존의 인트라 예측기는 $4{\times}4$블록에 적용되는 17개의 예측모드를 효율적으로 연산하기 위해 공통 연산기를 사용하였다. 하지만 기존의 공통 연산기는 한 픽셀에 적용되는 연산 수식을 분석하여 설계되었기 때문에, 16개 픽셀의 $4{\times}4$ 블록을 연산하기 위해 4개의 공통 연산기를 사용하며 4 사이클을 소요한다. 본 논문에서는 병렬 연산을 위한 T3(Three Type Transform) 연산기를 제안한다. 제안하는 T3 연산기는 17개의 인트라 예측 모드를 3가지 형태로 나누어, $4{\times}4$ 블록의 16개 픽셀에 적용되는 연산 수식을 한 사이클에 처리한다. 제안하는 인트라 예측기와 기존의 인트라 예측기의 예측 수행 사이클을 각 모드 별로 비교한 결과, 제안하는 인트라 예측기가 평균 58.95%의 향상된 결과를 얻었다.

      • KCI등재

        스케일링과 변환계수 복호를 위한 효율적인 하드웨어 설계

        정홍균,류광기,Jung, Hongkyun,Ryoo, Kwangki 한국정보통신학회 2012 한국정보통신학회논문지 Vol.16 No.10

        본 논문에서는 H.264/AVC 복호기의 역변환과 역양자화를 위한 효율적인 하드웨어 구조를 제안한다. 기존 역변환 및 역양자화기에서는 AC계수와 DC계수를 복호하는 순서가 다르다. 색차 DC계수와 인트라 $16{\times}16$ 모드에서 휘도 DC계수는 역변환을 수행하고 역양자화를 수행하는 반면에, 휘도 및 색차 AC계수는 역양자화를 수행하고 역변환을 수행하기 때문에 하드웨어로 구현시 제어 복잡도가 증가한다. 제안하는 구조는 DC계수와 AC계수에 관계없이 역양자화를 수행한 후 역변환을 수행하여 제어 복잡도를 감소시키고, 역양자화 연산을 공통 연산기를 사용하여 처리함으로써 계산 복잡도가 감소한다. 기존 역양자화기에는 나눗셈 연산을 포함하고 있어 복호하는 순서를 변경할 경우 오차가 발생하기 때문에 나눗셈 연산을 역변환 후에 수행하여 오차를 방지한다. 또한, 역변환기와 역양자화기를 3단 파이프라인으로 구성하고 수평 IDCT와 수직 IDCT를 병렬로 구현하여 수행 사이클을 감소시켰다. 제안하는 역변환기와 역양자화기의 매크로블록 당 처리되는 사이클 수를 비교 분석한 결과, 기존 구조 대비 45%이상 향상된 결과를 얻었다. In this paper, an efficient hardware architecture is proposed for inverse transform and inverse quantization of H.264/AVC decoder. The previous inverse transform and quantization architecture has a different AC and DC coefficients decoding order. In the proposed architecture, IQ is achieved after IT regardless of the DC or AC coefficients. A common operation unit is also proposed to reduce the computational complexity of inverse quantization. Since division operation is included in the previous architecture, it will generate errors if the processing order is changed. In order to solve the problem, the division operation is achieved after IT to prevent errors in the proposed architecture. The architecture is implemented with 3-stage pipeline and a parallel vertical and horizontal IDCT is also implemented to reduce the operation cycle. As a result of analyzing the proposed ITIQ architecture operation cycle for one macroblock, the proposed one has improved by 45% than the previous one.

      • KCI등재

        SAO의 성능개선을 위한 저면적 하드웨어 설계

        최지수,류광기,Choi, Jisoo,Ryoo, Kwangki 한국정보통신학회 2013 한국정보통신학회논문지 Vol.17 No.2

        In this paper, for HEVC decoding, an SAO hardware design with less processing time and reduced area is proposed. The proposed SAO hardware architecture introduces the design processing $8{\times}8$ CU to reduce the hardware area and uses internal registers to support $64{\times}64$ CU processing. Instead of previous top-down block partitioning, it uses bottom-up block partitioning to minimize the amount of calculation and processing time. As a result of synthesizing the proposed architecture with TSMC $0.18{\mu}m$ library, the gate area is 30.7k and the maximum frequency is 250MHz. The proposed SAO hardware architecture can process the decode of a macroblock in 64 cycles. 본 논문에서는 고성능 HEVC 복호기 설계를 위해 SAO(Sample Adaptive Offset)의 수행시간 단축과 연산량, 하드웨어 면적 감소를 위한 하드웨어 구조를 제안한다. 제안하는 SAO 하드웨어 구조는 $8{\times}8$ CU(Coding Unit)를 처리하는 연산기를 구성하여 하드웨어 면적을 최소화하고, 내부레지스터를 이용하여 $64{\times}64$ CU의 처리를 지원한다. 또한 기존 SAO의 top-down 블록분할 구조 대신 bottom-up 블록분할 구조로 설계하여 연산시간 및 연산량을 최소화한다. 제안한 SAO 하드웨어를 TSMC $0.18{\mu}m$ CMOS 표준 셀 라이브러리 이용해 합성한 결과 게이트 수는 30.7k개의 로직게이트로 구현되며 최대동작주파수는 250MHz이다. 제안한 SAO 하드웨어 구조는 하나의 매크로 블록을 복호화하는데 64사이클이 소요된다.

      • KCI등재

        효율적인 필터 계수 추출을 위한 HEVC 부호화기의 고성능 ALF 하드웨어 설계

        신승용,류광기,Shin, Seungyong,Ryoo, Kwangki 한국정보통신학회 2015 한국정보통신학회논문지 Vol.19 No.2

        본 논문에서는 필터 계수를 효율적으로 추출하기 위한 고성능 ALF(Adaptive Loop Filter)의 하드웨어 구조를 제안한다. HEVC의 ALF 기술은 고해상도 및 고화질의 영상을 높은 효율로 압축하고 주관적 화질을 향상시키기 위해 영상의 통계적인 특성을 이용한 필터 계수를 추출하여 필터링을 수행한다. 제안하는 ALF 하드웨어 구조는 필터 계수를 추출하기 위한 촐레스키 분해의 연산 관계를 분석하여 2단 파이프 구조로 설계함으로써 수행 사이클을 감소시켰다. 또한, 촐레스키 분해의 연산 과정에서 필요한 루트 연산은 멀티플렉서와 뺄셈기, 비교기 등을 이용하여 설계함으로써 적은 면적과 연산량, 복잡도를 갖는 하드웨어 구조로 설계하였다. 제안한 하드웨어는 Xilinx ISE 14.3 Vertex-7 XC7VCX485T FPGA 디바이스를 사용하여 합성한 결과 4K(3840x2160)@40fps의 영상을 실시간 처리할 수 있고, 최대 동작주파수는 186MHz이다. This paper proposes the hardware architecture of high performance ALF(Adaptive Loop Filter) for efficient filter coefficient estimation. In order to make the original image which has high resolution and high quality into highly compressed image effectively and also, subjective image quality into improved image, the ALF technique of HEVC performs a filtering by estimating filter coefficients using statistical characteristics of image. The proposed ALF hardware architecture is designed with a 2-step pipelined architecture for a reduction in performance cycle by analysing an operation relationship of Cholesky decomposition for the filter coefficient estimation. Also, in the operation process of the Cholesky decomposition, a square root operation is designed to reduce logic area, computation time and computation complexity by using the multiplexer, subtracter and comparator. The proposed hardware architecture is designed using Xilinx ISE 14.3 Vertex-7 XC7VCX485T FPGA device and can support 4K UHD@40fps in real time at a maximum operation frequency of 186MHz.

      • KCI등재

        HEVC 부호기를 위한 효율적인 SAO의 저면적 하드웨어 설계

        조현표,류광기,Cho, Hyunpyo,Ryoo, Kwangki 한국정보통신학회 2015 한국정보통신학회논문지 Vol.19 No.1

        본 논문에서는 HEVC(High Efficiency Video Coding) 부호기를 위한 효율적인 SAO(Sample Adaptive Offset)의 저면적 하드웨어 구조를 제안한다. SAO는 HEVC 영상 압축 표준에서 채택된 새로운 루프 내 필터 기술로서 최적의 오프셋 값들을 화소 단위로 적용하여 영역 내 평균 화소 왜곡을 감소시킨다. 하지만 표준 SAO는 화소 단위 연산을 수행하기 때문에 초고해상도 영상을 처리하기 위해서 많은 연산시간과 연산량을 요구한다. 제안하는 SAO 하드웨어 구조는 SAO의 연산시간을 감소시키기 위해서 한번에 4개의 입력 화소들을 병렬적으로 처리하며, 2단계 파이프라인 구조를 갖는다. 또한 하드웨어 면적을 최소화하기 위해서 휘도 성분과 색차 성분에 대해 단일 구조를 가지며, 하드웨어에 적합한 연산기 및 공통 연산기를 사용한다. 제안하는 SAO 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 약 190k개의 게이트로 구현되었다. 제안하는 SAO 하드웨어 구조는 200MHz의 동작주파수에서 4K UHD@60fps 영상의 실시간 처리가 가능하며, 최대 250MHz까지 동작 가능하다. This paper proposes a hardware architecture for an efficient SAO(Sample Adaptive Offset) with low area for HEVC(High Efficiency Video Coding) encoder. SAO is a newly adopted technique in HEVC as part of the in-loop filter. SAO reduces mean sample distortion by adding offsets to reconstructed samples. The existing SAO requires a great deal of computational and processing time for UHD(Ultra High Definition) video due to sample by sample processing. To reduce SAO processing time, the proposed SAO hardware architecture processes four samples simultaneously, and is implemented with a 2-step pipelined architecture. In addition, to reduce hardware area, it has a single architecture for both luma and chroma components and also uses optimized and common operators. The proposed SAO hardware architecture is designed using Verilog HDL(Hardware Description Language), and has a total of 190k gates in TSMC $0.13{\mu}m$ CMOS standard cell library. At 200MHz, it can support 4K UHD video encoding at 60fps in real time, but operates at a maximum of 250MHz.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼