RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 다중 모드를 지원하는 고성능 HEVC 변환 블록의 하드웨어 설계

        김기현 ( Ki-hyun Kim ),신승용 ( Seung-yong Shin ),류광기 ( Kwang-ki Ryoo ) 한국정보처리학회 2013 한국정보처리학회 학술대회논문집 Vol.20 No.2

        변환 블록은 영상 압축에서 데이터를 공간적 영역에서 주파수 영역으로 변환해줌으로써 압축의 효율성을 높이는 역할을 수행한다. 본 논문에서는 고성능 HEVC 를 위한 4 개의 TU 모드(4x4, 8x8, 16x16, 32x32)를 지원하는 변환 블록 하드웨어 구조를 제안한다. 제안하는 변환 블록의 하드웨어 구조는 공통 연산기를 사용하여 각 TU 모드에 맞는 행렬 계수들 간의 연산을 수행한다. 또한 병렬적인 구조로 설계하여 4x4, 8x8, 16x16, 32x32 크기 TU 모드의 행렬 연산을 처리하는 사이클수가 35cycle 로 동일하게 처리된다. TSMC 180nm CMOS 공정 라이브러리를 통해 합성한 결과 4k(3840x2160)@30Hz 의 영상을 기준으로 최대 동작주파수는 400MHz 이고 총 게이트 수는 159k 이며, 10-Gpels/cycle 의 처리량을 갖는다.

      • KCI등재

        고성능 H.264 인코더를 위한 CABAC 하드웨어 설계

        명제진,류광기,Myoung, Je-Jin,Ryoo, Kwang-Ki 한국정보통신학회 2012 한국정보통신학회논문지 Vol.16 No.4

        본 논문에서는 공통 연산기(Common Operation Unit)를 이용한 CABAC의 이진 산술 부호화기를 제안한다. 제안한 공통 연산기는 모드에 상관없이 하나의 공통 연산기를 이용하여 산술 부호화 및 재정규화를 수행하는 이진 산술 부호화기의 하드웨어 구조를 단순하게 구현할 수 있다. 제안하는 CABAC의 이진 산술 부호화기는 Context RAM, Context Updater, Common Operation Unit, Bit-Gen으로 구성되며 매 클럭당 하나의 심볼이 부호화될 수 있는 4단 파이프라인으로 구성하였다. 제안한 CABAC의 이진 산술 부호화기는 기존 CABAC의 이진 산술 부호화기와 비교하여 게이트 수는 최대 47% 감소하였고, 동작 주파수는 최대 19% 성능이 향상됨을 확인하였다. This paper proposes a binary arithmetic encoder of CABAC using a Common Operation Unit including the three modes. The binary arithmetic encoder performing arithmetic encoding and renormalizer can be simply implemented into a hardware architecture since the COU is used regardless of the modes. The proposed binary arithmetic encoder of CABAC includes Context RAM, Context Updater, Common Operation Unit and Bit-Gen. The architecture consists of 4-stage pipeline operating one symbol for each clock cycle. The area of proposed binary arithmetic encoder of CABAC is reduced up to 47%, the performance of proposed binary arithmetic encoder of CABAC is 19% higher than the previous architecture.

      • KCI등재

        DCT 기반 인트라 예측 인코더를 위한 효율적인 하드웨어 설계

        차기종,류광기,Cha, Ki-Jong,Ryoo, Kwang-Ki 한국정보통신학회 2012 한국정보통신학회논문지 Vol.16 No.4

        본 논문에서는 인트라 모드 결정으로 인해 발생되는 연산 복잡도 문제를 줄이기 위해 DCT 기반 인트라 예측을 사용하는 효율적인 하드웨어 구조를 제안한다. 제안된 하드웨어 구조는 처음 입력 블록에 대해 DCT를 수행하고 DCT 계수의 특성을 이용하여 에지 방향성을 예측한다. 그리고 예측된 에지 방향에 해당하는 모드에 대해서만 화면 내 예측을 수행함으로써 복잡도 문제를 해결하였다. DCT 하드웨어 구조는 4개의 덧셈기와 4개의 뺄셈기, 2개의 쉬프트 연산기로 구성된 Transform_PE를 이용하여 Multitransform_PE를 구현하였고 $4{\times}4$ 블록 DCT를 1 사이클에 계산한다. 또한, 15개의 덧셈기, 15개의 쉬프트 연산기로 구성된 Intra_pred_PE를 통해 2 사이클에 하나의 화면 내 예측을 수행한다. 따라서 하나의 매크로블록을 인코딩할 때 517 사이클을 소요하며 기존의 하드웨어 구조 보다 수행 사이클 수에 있어서 17%의 성능이 향상됨을 보였다. 본 논문의 하드웨어 구조는 DCT 기반 인트라 예측 알고리즘을 사용하며 Verilog HDL을 이용하여 구현되었고, 매그나칩 공정 $0.18{\mu}m$ 셀 라이브러리로 합성 결과 최대 125MHz에서 동작함을 확인하였다. In this paper, we proposed an effective hardware structure using DCT-based inra-prediction mode selection to reduce computational complexity caused by intra mode decision. In this hardware structure, the input block is transformed at first and then analyzed to determine its texture directional tendency. the complexity has solved by performing intra prediction in only predicted edge direction. $4{\times}4$ DCT is calculated in one cycle using Multitransform_PE and Inta_pred_PE calculates one prediction mode in two cycles. Experimental results show that the proposed Intra prediction encoding needs only 517 cycles for one macroblock encoding. This architecture improves the performance by about 17% than previous designs. For hardware implementation, the proposed intra prediction encoder is implemented using Verilog HDL and synthesized with Megnachip $0.18{\mu}m$ standard cell library. The synthesis results show that the proposed architecture can run at 125MHz.

      • KCI등재

        HEVC를 위한 저면적 고성능 다중 모드 1D 변환 블록 설계

        김기현,류광기,Kim, Ki-Hyun,Ryoo, Kwang-Ki 한국정보통신학회 2014 한국정보통신학회논문지 Vol.18 No.1

        본 논문에서는 연산 시간이 긴 곱셈기 패스를 낮은 주파수에서 동작하는 저면적의 HEVC(High Efficiency Video Coding)용 다중 모드 일차원 변환 블록을 구현하는 효율적인 방법을 제시하였다. 제시한 방법은 전체 면적을 줄이기 위하여 일반적인 변수와 변수를 입력으로 받는 곱셈기 대신 행렬의 계수 특성을 이용한 상수와 변수를 입력으로 받는 상수 곱셈기를 사용하였다. 상수 곱셈기 사용으로 인하여 전체적인 처리량을 증가시켰으며 늘어난 처리량으로 인해 남는 동작 사이클을 이용하여 연산시간이 많이 걸리는 곱셈기 부분에 멀티 사이클 패스를 구성하여 곱셈기의 동작 주파수를 낮게 하면서 전체 연산량은 유지시켰다. TSMC 0.18um CMOS 공정 라이브러리를 이용하여 실제 하드웨어를 구현한 결과 4k($3840{\times}2160$) 영상을 기준으로 최소 동작 주파수는 186MHz이고 최대 동작 주파수는 300MHz이다. This paper suggest an effective idea to implement an low area multi-mode one dimension transform block of HEVC(High Efficiency Video Coding). The time consuming multiplier path is designed to operate on low frequency. Normal multipliers dealing with variable operands are replaced with smaller constant multipliers which do the product with constant coefficient and variable only using shifters and adders. This scheme increases total multiplier counts but entire areas are reduced owing to smaller area of constant multiplier. Idle cycles caused by doubled multipliers enable to use multi-cycle paths on the cycle eating multiplier data path. Operating frequency is lowered by multi-cycle path but total throughput is maintained. This structure is implemented with TSMC 0.18 CMOS process library, and operated on 186MHz frequency to process a 4k($3840{\times}2160$) image. Max operating frequency is 300MHz.

      • KCI등재

        임베디드 RISC 코어의 성능 및 전력 개선

        정홍균,류광기,Jung, Hong-Kyun,Ryoo, Kwang-Ki 한국정보통신학회 2010 한국정보통신학회논문지 Vol.14 No.2

        본 논문에서는 임베디드 RISC 코어의 성능 및 전력 소모 개선을 위해 동적 분기예측 구조, 4원 집합연관 캐쉬 구조, ODC 연산을 이용한 클록 게이팅 기법을 제시한다. 동적 분기 예측 구조는 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB (Branch Target Buffer)를 사용한다. 4원 집합연관 캐쉬는 네 개의 메모리 블록을 한 개의 캐쉬 블록에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 낮고 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시킨다. ODC를 이용한 클록게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC 조건을 찾아 클록 게이팅 로직을 삽입함으로써 동적 소비전력을 줄인다. 제시한 구조들을 임베디드 RISC 코어인 OpenRISC 코어에 적용하여 성능을 측정한 결과, 기존 OpenRISC 코어 대비 실행시간이 약 29% 향상 되었고, Chartered $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 OpenRISC 코어 대비 소비전력이 16% 이상 감소하였다. This paper presents a branch prediction algorithm and a 4-way set-associative cache for performance improvement of embedded RISC core and a clock-gating algorithm using ODC (Observability Don't Care) operation to improve the power consumption of the core. The branch prediction algorithm has a structure using BTB(Branch Target Buffer) and 4-way set associative cache has lower miss rate than direct-mapped cache. Pseudo-LRU Policy, which is one of the Line Replacement Policies, is used for decreasing the number of bits that store LRU value. The clock gating algorithm reduces dynamic power consumption. As a result of estimation of performance and dynamic power, the performance of the OpenRISC core applied the proposed architecture is improved about 29% and dynamic power of the core using Chartered $0.18{\mu}m$ technology library is reduced by 16%.

      • KCI등재

        SoC의 성능 향상을 위한 크로스바 스위치 온칩 버스 설계

        허정범,류광기,Heo, Jung-Burn,Ryoo, Kwang-Ki 한국정보통신학회 2010 한국정보통신학회논문지 Vol.14 No.3

        기존에 사용되는 대부분의 SoC는 공유버스 구조를 가지고 있어, 병목현상이 발생하는 문제점을 가지고 있다. 이러한 문제점은 SoC의 내부의 IP 수가 많을수록, 전체적인 SoC의 성능을 저하시키게 되어, CPU 자체의 속도보다는 전체적인 통신 분배에 의해 SoC의 성능이 좌우 된다. 본 논문에서는 공유버스의 단점인 병목현상을 줄이고 SoC의 성능을 향상시키기 위해 크로스바 스위치버스 구조를 제안한다. 크로스바 스위치 버스는 마스터 모률 8개, 슬레이브 모듈 16개까지 연결이 가능하며, 다중 버스 채널구조로 되어 있어 병렬통신이 가능하다. 또한 각 16개의 슬레이브 인터페이스마다 우선순위 정보가 저장된 아비터가 내장되어 하나의 마스터가 슬레이브를 독점하는 것을 방지하는 것과 동시에 효율적인 통신을 지원한다. OpenRISC 프로세서, VGA/LCD 제어기, AC97 제어기, 디버그 인터페이스, 메모리 인터페이스로 구성되는 SoC 플랫폼의 WISHBONE 온칩 공유버스 구조와 크로스바 스위치 버스구조의 성능을 비교한 결과, 기존의 공유버스보다 26.58%의 성능이 향상되었다. Most of the existing SoCs have shared bus architecture which always has a bottleneck state. The more IPs are in an SOC, the less performance it is of the SOC, Therefore, its performance is effected by the entire communication rather than CPU speed. In this paper, we propose cross-bar switch bus architecture for the reduction of the bottleneck state and the improvement of the performance. The cross-bar switch bus supports up to 8 masters and 16 slaves and parallel communication with architecture of multiple channel bus. Each slave has an arbiter which stores priority information about masters. So, it prevents only one master occupying one slave and supports efficient communication. We compared WISHBONE on-chip shared bus architecture with crossbar switch bus architecture of the SOC platform, which consists of an OpenRISC processor, a VGA/LCD controller, an AC97 controller, a debug interface, a memory interface, and the performance improved by 26.58% than the previous shared bus.

      • KCI등재

        HEVC를 위한 고성능 다중 모드 2D 변환 블록의 설계

        김기현,류광기,Kim, Ki-Hyun,Ryoo, Kwang-Ki 한국정보통신학회 2014 한국정보통신학회논문지 Vol.18 No.2

        본 논문에서는 4가지의 TU를 동일한 사이클에 처리하는 고성능 다중모드 2D 변환기의 하드웨어 구조를 제안한다. HEVC의 변환 기술은 고해상도, 고화소의 영상을 높은 효율로 압축하기 위해 4가지의 화소 단위 TU를 지원하여 각각의 변환 연산을 수행한 후 최적의 모드를 찾는다. 제안하는 변환기는 변환 행렬 계수들 간의 관계를 분석하여 공통 연산기를 사용한 구조로 설계하여 4가지의 TU 모드 행렬 연산을 처리하는 사이클 수가 동일하게 35cycle로 처리된다. TSMC 018nm CMOS 공정 라이브러리를 사용해 합성한 결과 $4k(3840{\times}2160)@30fps$의 영상을 기준으로 최대 동작주파수는 400MHz이고 총 게이트 수는 214k가 소요되었으며, 10-Gpels/cycle의 처리량을 갖는다. This paper proposes the hardware architecture of high performance multi-mode 2D forward transform for HEVC which has same number of cycles for processing any type of four TUs and yield high throughput. In order to make the original image which has high pixel and high resolution into highly compressed image effectively, the transform technique of HEVC supports 4 kinds of pixel units, TUs and it finds the optimal mode after performs each transform computation. As the proposed transform engine uses the common computation operator which is produced by analyzing the relationship among transform matrix coefficients, it can process every 4 kinds of TU mode matrix operation with 35cycles equally. The proposed transform block was designed by Verilog HDL and synthesized by using TSMC 0.18um CMOS processing technology. From the results of logic synthesis, the maximum operating frequency was 400MHz and total gate count was 214k gates which has the throughput of 10-Gpels/cycle with the $4k(3840{\times}2160)@30fps$ image.

      • KCI등재

        H.264/AVC 베이스라인 프로파일 디코더의 효율적인 인터예측 하드웨어 구조 설계

        김선철(Jin, Xianzhe),류광기(Ryoo, Kwang-Ki) 한국산학기술학회 2009 한국산학기술학회논문지 Vol.10 No.12

        본 논문에서는 H.264/AVC 베이스라인 프로파일 디코더 설계에서 병목현상을 일으키는 주요 부분인 인터 예 측 성능 개선을 위한 효율적인 하드웨어 구조를 제안한다. H.264/AVC 디코더는 다양한 블록 모드를 지원하지만 레퍼 런스 소프트웨어에서는 중복 픽셀에 대해 제거 하지 않고 항상 4x4 블록에 대하여 최소 4x4, 최대 9x9 참조 블록을 패치한다. 기존의 Nova에서는 이를 해결하기 위하여 8x8 블록 모드와 4x4 블록 모드를 고려하였다. 블록 모드가 8x8 사이즈보다 크거나 같을 경우 여러 8x8 블록으로 나누어서 그에 대한 13x13 레퍼런스 블록을 패치 하고 8x8 블록 보 다 작을 경우 여러 개의 4x4 블록으로 나누어 그에 대한 9x9 레퍼런스 블록을 패치하여 중복픽셀을 제거함으로써 사 이클 수를 감소시켜 레퍼런스 소프트웨어에 비해 최대 41.5%, 최소 28.2%의 성능을 향상시켰다. 본 논문에서는 성능 향상을 위하여 8x8과 4x4 블록 모드 뿐만 아니라 다양한 레퍼런스 블록 패치를 진행하여 중복픽셀을 제거하고 메모 리 패치 사이클 수를 줄여 기존 설계에 비해 최대 18.6%의 참조 블록 패치 사이클 수를 감소시켰다. Inter-prediction is always the main bottleneck in H.264/AVC baseline profile. This paper describes an efficient inter-prediction hardware architecture design. H.264/AVC decoder supports various block types but reference software considers only the 4x4 block when the reference block is being fetched. This causes duplicated pixels which needs extra fetch cycles. In order to eliminate some of the duplicated pixels, the 8x8 and 4x4 blocks were considered in the previous design. If the block size is larger than or equal to the 8x8 block, it will be decomposed into several 8x8 blocks and if the block size is smaller than the 8x8 block it will be decomposed into several 4x4 blocks. Comparing with the reference software, the maximum and minimum cycle reduction of the previous design are 41.5% and 28.2% respectively. For further reduction of the fetch cycles, the various block types are considered in this paper. As a result, the maximum cycle reduction is 18.6% comparing with the previous design.

      • KCI등재

        고성능 잔여 데이터 복호기를 위한 최적화된 하드웨어 설계

        정홍균(Jung, Hong-Kyun),류광기(Ryoo, Kwang-Ki) 한국산학기술학회 2012 한국산학기술학회논문지 Vol.13 No.11

        본 논문에서는 H.264/AVC의 고성능 잔여 데이터 복호기를 위해 최적화된 하드웨어 구조를 제안한다. 제안 하는 하드웨어 구조는 새로운 역영자화 수식들을 적용한 공통 연산기를 갖는 병렬 역양자화기와 병렬 역변환기를 통 합한 하드웨어 구조이다. 새로운 역양자화 수식들은 기존 수식에서 나눗셈 연산을 제거하여 연산량 및 처리시간을 감 소시키고 새로운 수식들을 처리하기 위해 곱셈기와 왼쪽 쉬프터로 구성된 하나의 공통 연산기를 사용한다. 역양자화 기는 4개의 공통 연산기를 병렬처리하기 때문에 4x4 블록의 역양자화 수행 사이클 수를 1 사이클로 감소시키고, 제 안하는 역변환기는 8개의 역변환 연산기를 사용하여 4x4 블록의 역변환 수행 사이클 수를 1 사이클로 감소시킨다. 또한 제안하는 구조는 역양자화 연산과 역변환 연산을 동시에 수행하기 때문에 하나의 4x4 블록을 처리하는 데 1 사 이클이 소요되어 수행 사이클 수가 감소한다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하 여 합성한 결과 게이트 수는 21.9k, critical path delay는 5.5ns이고, 최대 동작 주파수는 181MHz이다. 최대 동작 주파 수에서 제안하는 구조의 throughput은 2.89Gpixels/sec이다. 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하 여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조들 대비 88.5% 이상 향상되었다. In this paper, an optimized residual data decoder architecture is proposed to improve the performance in H.264/AVC. The proposed architecture is an integrated architecture that combined parallel inverse transform architecture and parallel inverse quantization architecture with common operation units applied new inverse quantization equations. The equations without division operation can reduce execution time and quantity of operation for inverse quantization process. The common operation unit uses multiplier and left shifter for the equations. The inverse quantization architecture with four common operation units can reduce execution cycle of inverse quantization to one cycle. The inverse transform architecture consists of eight inverse transform operation units. Therefore, the architecture can reduce the execution cycle of inverse transform to one cycle. Because inverse quantization operation and inverse transform operation are concurrency, the execution cycle of inverse transform and inverse quantization operation for one 4x4 block is one cycle. The proposed architecture is synthesized using Magnachip 0.18um CMOS technology. The gate count and the critical path delay of the architecture are 21.9k and 5.5ns, respectively. The throughput of the architecture can achieve 2.89Gpixels/sec at the maximum clock frequency of 181MHz. As the result of measuring the performance of the proposed architecture using the extracted data from JM 9.4, the execution cycle of the proposed architecture is about 88.5% less than that of the existing designs.

      • KCI등재

        안드로이드 기반 스마트폰을 활용한 지능형 서비스 로봇 개발

        문채영(Moon, Chae-Young),류광기(Ryoo, Kwang-Ki) 한국산학기술학회 2012 한국산학기술학회논문지 Vol.13 No.9

        본 연구에서는 안드로이드 기반 스마트폰을 장착하여 지능형 로봇의 성능 구현이 가능하도록 스마트폰 애플 리케이션과 로봇 플랫폼을 설계 및 구현하였다. 터치스크린, 사운드 입출력, 네트워크 그리고 각종 센서 기능을 갖고 있는 스마트폰을 전원부와 모터 등의 단순 기능을 갖는 로봇플랫폼에 접목시켜 원격제어, 홈오토메이션, 게임기, R-러 닝 등의 기능을 수행할 수 있도록 구현하였다. 연구에 사용된 스마트폰은 블루투스 통신을 이용하여 로봇과 데이터를 송수신하며 원격지의 컴퓨터와는 WI-FI를 통해 인터넷으로 통신을 수행하도록 설계 하였다. In this study, the intelligent robot equipped with an Android-based smartphone to enable the implementation of the performance of smartphone applications and robot platform has been designed and implemented. Smart phone that have touch screen, sound input/output, network and various sensor functions to robot platform that have simplicity function of power and motor etc. graft together and embodied so that can achieve function of remote control, home automation, game machine, R-running race etc. Phone used in the study of the Bluetooth communication sending and receiving data between the robot and from a remote computer over the Internet via WI-FI is designed to perform communication.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼