RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI우수등재

      이기종 멀티코어 CPU에서 프로파일 기반 딥 러닝 연산 최적화 기법 = Profile-based Optimization for Deep Learningon Heterogeneous Multi-core CPUs

      한글로보기

      https://www.riss.kr/link?id=A108674103

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      Recently, there has been a growing demand to apply deep learning in embedded environments. In constrained embedded environments, heterogeneous multicore CPU architectures like Arm's big.LITTLE are widely utilized to efficiently carry out deep learning...

      Recently, there has been a growing demand to apply deep learning in embedded environments. In constrained embedded environments, heterogeneous multicore CPU architectures like Arm's big.LITTLE are widely utilized to efficiently carry out deep learning computations. Although Arm provides Arm Compute Library (ACL) for optimal deep learning operations, it does not fully leverage the potential of hardwares with the big.LITTLE structure. This paper proposes a profile-based search method for automatically determining the optimal execution kernel and schedule for each hardware. Experiments were conducted on Tinker Edge R, Odroid N+, and Snapdragon 865 HDK boards using AlexNet, VGG16, MobileNetV2, and GoogleNet models. In all cases, the proposed method improved performance up to 266% compared to existing methods. Through the results of this research, we expect to enable cost-effective, low-power, and high-performance execution of deep learning in embedded devices.

      더보기

      국문 초록 (Abstract)

      최근 임베디드 환경에서 딥 러닝을 적용하고자 하는 요구가 증가하고 있다. 임베디드와 같은 제한적인 환경에서 딥 러닝 연산을 효율적으로 수행하기 위해서 Arm의 big.LITTLE과 같은 이기종 멀...

      최근 임베디드 환경에서 딥 러닝을 적용하고자 하는 요구가 증가하고 있다. 임베디드와 같은 제한적인 환경에서 딥 러닝 연산을 효율적으로 수행하기 위해서 Arm의 big.LITTLE과 같은 이기종 멀티코어 CPU 아키텍처가 널리 활용되고 있다. Arm은 딥 러닝 연산을 최적으로 수행하기 위해 Arm Compute Library(ACL)를 제공하고 있지만, big.LITTLE 구조를 가진 하드웨어의 잠재력을 충분히 활용하지는 못하고 있다. 본 논문은 각 하드웨어에 최적인 실행 커널과 스케줄을 자동으로 결정하기 위한 프로파일 기반 탐색 방법을 제안한다. 실험은 Tinker Edge R, Odroid N+, Snapdragon 865 HDK 보드에서 AlexNet, VGG16, MobileNetV2, GoogleNet 모델을 대상으로 진행하였으며, 모든 경우에서 제안된 방법이 기존의 방법보다 최대 266% 성능 향상을 보임을 확인하였다. 본 연구의 결과를 통해 임베디드 기기에서 저비용, 저전력, 고성능의 딥 러닝 수행이 가능할 것으로 기대한다.

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼