RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      온센서 기반의 경량화 이미지 처리 모델 설계 및 구현 = Design and Implementation of an On-Sensor Lightweight Image Processing Model

      한글로보기

      https://www.riss.kr/link?id=T17298690

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      온디바이스 인공지능(On-Device AI)의 발전과 함께, 딥러닝 모 델을 마이크로컨트롤러(MCU)에 직접 탑재하여 저지연, 저전력, 네 트워크 독립적인 지능형 시스템을 구현하려는 수요가 증가하고 있 다. 그러나 MCU는 메모리와 연산 자원이 매우 제한적이기 때문에, 복잡한 시각 인식 과제를 실시간으로 실행하는 데에는 여전히 큰 도전이 존재한다. 본 연구는 STM32H747 듀얼코어 MCU를 기반으 로, 최적화 및 양자화된 경량 신경망 모델을 활용하여 이미지 분류 와 세그먼테이션을 MCU 환경에서 실시간으로 실행 가능한지를 탐 구하였다. 먼저 STM32H747 환경에서 MicroNet, MobileNetV2, FD-MobileNet, SqueezeNet1.1 등 대표적인 경량 분류 모델을 Cortex-M4 코어가 전처리를, Cortex-M7 코어가 추론을 수행하는 듀얼코어 구조를 활용함으로써, M7 코어에서의 추론을 병렬적으로 실행하는 구조를 설계하였다. 이를 통해 단일코어 대비 최대 30% 이상의 지연 시간을 줄였고, 평균 약 15fps 수준의 안정적인 실시간 응답 속도를 확보하였다. 이후, 더 복잡한 과제인 이미지 세그먼테이션 모델을 MCU에 적 용하기 위해 스킵 연결(skip connection) 제거, 출력 해상도 축소 (32×32), INT8/INT16 양자화 등을 적용한 경량 구조를 설계하였다. 해당 모델은 전체 파라미터 수 약 1MB 이내로 제한되어 STM32H747의 내부 SRAM에 완전히 적재할 수 있으며, 다양한 이 미지 전처리 방법이나 FreeRTOS 기반 구조와의 비교, 모델 구조 분석 실험을 통해 MCU 내에서 실제적으로 적용하기 위한 방법을 탐구하였다. 또한, 세그먼테이션 결과를 기반으로 실용적으로 사용할 수 있는 서보모터를 제어하는 카메라 기반 실시간 객체 추적 시스템을 구현 함으로써, 입력, 추론, 제어 전체 파이프라인을 MCU 내부에서 완결 하는 구조를 실현하였다. 아울러, 모델을 M4/M7 코어에 분산하여 병렬 추론을 수행하는 구조를 실험적으로 검증하였으며, 지연 시간 추가 개선의 가능성도 확인하였다. 본 연구는 제한된 임베디드 하드웨어 환경에서도 실시간 비전 AI 시스템을 구현할 수 있는 실용적 경로를 제시하며, 모델 설계, 시스템 구조, 자원 최적화 전략 측면의 온센서 AI를 제안한다. Keywords : MCU, AI, TensorFlow lite micro, embedded system
      번역하기

      온디바이스 인공지능(On-Device AI)의 발전과 함께, 딥러닝 모 델을 마이크로컨트롤러(MCU)에 직접 탑재하여 저지연, 저전력, 네 트워크 독립적인 지능형 시스템을 구현하려는 수요가 증가하고 ...

      온디바이스 인공지능(On-Device AI)의 발전과 함께, 딥러닝 모 델을 마이크로컨트롤러(MCU)에 직접 탑재하여 저지연, 저전력, 네 트워크 독립적인 지능형 시스템을 구현하려는 수요가 증가하고 있 다. 그러나 MCU는 메모리와 연산 자원이 매우 제한적이기 때문에, 복잡한 시각 인식 과제를 실시간으로 실행하는 데에는 여전히 큰 도전이 존재한다. 본 연구는 STM32H747 듀얼코어 MCU를 기반으 로, 최적화 및 양자화된 경량 신경망 모델을 활용하여 이미지 분류 와 세그먼테이션을 MCU 환경에서 실시간으로 실행 가능한지를 탐 구하였다. 먼저 STM32H747 환경에서 MicroNet, MobileNetV2, FD-MobileNet, SqueezeNet1.1 등 대표적인 경량 분류 모델을 Cortex-M4 코어가 전처리를, Cortex-M7 코어가 추론을 수행하는 듀얼코어 구조를 활용함으로써, M7 코어에서의 추론을 병렬적으로 실행하는 구조를 설계하였다. 이를 통해 단일코어 대비 최대 30% 이상의 지연 시간을 줄였고, 평균 약 15fps 수준의 안정적인 실시간 응답 속도를 확보하였다. 이후, 더 복잡한 과제인 이미지 세그먼테이션 모델을 MCU에 적 용하기 위해 스킵 연결(skip connection) 제거, 출력 해상도 축소 (32×32), INT8/INT16 양자화 등을 적용한 경량 구조를 설계하였다. 해당 모델은 전체 파라미터 수 약 1MB 이내로 제한되어 STM32H747의 내부 SRAM에 완전히 적재할 수 있으며, 다양한 이 미지 전처리 방법이나 FreeRTOS 기반 구조와의 비교, 모델 구조 분석 실험을 통해 MCU 내에서 실제적으로 적용하기 위한 방법을 탐구하였다. 또한, 세그먼테이션 결과를 기반으로 실용적으로 사용할 수 있는 서보모터를 제어하는 카메라 기반 실시간 객체 추적 시스템을 구현 함으로써, 입력, 추론, 제어 전체 파이프라인을 MCU 내부에서 완결 하는 구조를 실현하였다. 아울러, 모델을 M4/M7 코어에 분산하여 병렬 추론을 수행하는 구조를 실험적으로 검증하였으며, 지연 시간 추가 개선의 가능성도 확인하였다. 본 연구는 제한된 임베디드 하드웨어 환경에서도 실시간 비전 AI 시스템을 구현할 수 있는 실용적 경로를 제시하며, 모델 설계, 시스템 구조, 자원 최적화 전략 측면의 온센서 AI를 제안한다. Keywords : MCU, AI, TensorFlow lite micro, embedded system

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      With the rapid progress of on-device AI, there is growing demand to embed deep-learning models directly in microcontrollers(MCUs) to deliver low-latency, low-power, and network-independent intelligence. Yet real-time execution of complex visual-recognition tasks on MCUs remains challenging because of their severely limited memory and compute resources. This study investigates whether real-time image classification and segmentation can be achieved on an STM32H747 dual-core MCU by deploying optimized and quantized lightweight neural networks. First, we implemented a dual-core architecture in which representative lightweight classifiers—MicroNet, MobileNetV2, FD-MobileNet, and SqueezeNet 1.1—run on the STM32H747. The Cortex-M4 core handles preprocessing while the Cortex-M7 core performs inference; multiple inferences on the M7 core are executed in parallel. This partitioning cuts latency by more than 30% compared with a single-core setup and delivers a stable real-time throughput of roughly 15 fps. Next, to apply the image segmentation model, a more complex task, to the MCU, we designed a lightweight structure with skip connections removed, output resolution reduced (32×32), and INT8/INT16 quantization. By capping the parameter count below 1 MB, the entire model fits in the STM32H747’s internal SRAM. Feasibility was validated through experiments on various image-preprocessing pipelines, comparisons with FreeRTOS-based implementations, and detailed ablation studies. We then built a camera-based real-time object-tracking system that drives a servomotor directly from the segmentation output, completing the full pipeline—image capture, inference, and control—entirely inside the MCU. Additional experiments that distribute the model across the M4 and M7 cores further reduced latency, confirming the benefits of parallel inference. Overall, this work demonstrates a practical path to real-time vision AI on resource-constrained embedded hardware and offers concrete insights into model design, system architecture, and resource-optimization strategies for on-device AI. Keywords : MCU,AI, TensorFlow lite micro, embedded system
      번역하기

      With the rapid progress of on-device AI, there is growing demand to embed deep-learning models directly in microcontrollers(MCUs) to deliver low-latency, low-power, and network-independent intelligence. Yet real-time execution of complex visual-recogn...

      With the rapid progress of on-device AI, there is growing demand to embed deep-learning models directly in microcontrollers(MCUs) to deliver low-latency, low-power, and network-independent intelligence. Yet real-time execution of complex visual-recognition tasks on MCUs remains challenging because of their severely limited memory and compute resources. This study investigates whether real-time image classification and segmentation can be achieved on an STM32H747 dual-core MCU by deploying optimized and quantized lightweight neural networks. First, we implemented a dual-core architecture in which representative lightweight classifiers—MicroNet, MobileNetV2, FD-MobileNet, and SqueezeNet 1.1—run on the STM32H747. The Cortex-M4 core handles preprocessing while the Cortex-M7 core performs inference; multiple inferences on the M7 core are executed in parallel. This partitioning cuts latency by more than 30% compared with a single-core setup and delivers a stable real-time throughput of roughly 15 fps. Next, to apply the image segmentation model, a more complex task, to the MCU, we designed a lightweight structure with skip connections removed, output resolution reduced (32×32), and INT8/INT16 quantization. By capping the parameter count below 1 MB, the entire model fits in the STM32H747’s internal SRAM. Feasibility was validated through experiments on various image-preprocessing pipelines, comparisons with FreeRTOS-based implementations, and detailed ablation studies. We then built a camera-based real-time object-tracking system that drives a servomotor directly from the segmentation output, completing the full pipeline—image capture, inference, and control—entirely inside the MCU. Additional experiments that distribute the model across the M4 and M7 cores further reduced latency, confirming the benefits of parallel inference. Overall, this work demonstrates a practical path to real-time vision AI on resource-constrained embedded hardware and offers concrete insights into model design, system architecture, and resource-optimization strategies for on-device AI. Keywords : MCU,AI, TensorFlow lite micro, embedded system

      더보기

      목차 (Table of Contents)

      • Ⅰ. 서 론
      • 1. 연구배경
      • 2. 연구범위
      • Ⅱ. 관련 연구
      • 1. MCU 기반 AI 프레임워크
      • Ⅰ. 서 론
      • 1. 연구배경
      • 2. 연구범위
      • Ⅱ. 관련 연구
      • 1. MCU 기반 AI 프레임워크
      • 2. 이미지 처리 모델
      • 3. 모델 경량화 및 최적화
      • Ⅲ. 연구동기
      • 1. 연구 필요성
      • 2. STM32H747 기반 듀얼코어 온센서 AI 실행 환경
      • Ⅳ. 이미지 분류 모델
      • 1. 이미지 분류 모델 소개
      • 2. 이미지 전처리
      • 3. 공유 메모리
      • 4. 결과
      • Ⅴ. 이미지 세그먼테이션 모델
      • 1. 모델 구조 및 경량화 전략
      • 2. 학습 데이터셋 구성 및 성능 평가
      • 3. MCU 내 입력 이미지 전처리
      • 4. 공유 메모리 구조 및 통신 방식
      • 5. 추론
      • Ⅵ. 실험 및 결과
      • 1. 각 모델 실행결과 및 계산 분석
      • 2. 각 레이어별 실행 분석
      • 3. 이미지 전처리에 따른 정확도 분석
      • 4. 활용 가능성 논의
      • Ⅶ. 결론 및 향후 연구
      • 1. 결론
      • 2. 향후 연구
      • 참고문헌
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼