RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      인간 골격 데이터를 이용한 인공지능 모델 구현 및 응용 연구 = A Study on the Implementation and Applications of Human Skeleton Data-Based Action Recognition Artificial Intelligence

      한글로보기

      https://www.riss.kr/link?id=T17374206

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      인간 행동 인식(Human Action Recognition; HAR)은 사람의 동작과 활동 데이터를 입력으로 받아 각 동작의 시공간적·구조적 특징을 학습하여, 동작의 종류를 자동으로 판별하는 딥러닝 모델 연구 분야를 의미한다. HAR은 안전 모니터링, 헬스케어, 스마트 공간 등 다양한 분야에서 핵심 기술로 활용될 수 있으며, 컴퓨팅 성능의 비약적 발전에 힘입어 점차 복잡하고 정밀한 인간의 움직임까지 데이터로 해석하고 학습할 수 있게 되었다. 최근에는 영상 및 센서 기반의 raw 움직임 데이터를 효과적으로 처리하는 기술이 고도화되면서, HAR은 미래 사회의 고령화, 맞춤형 의료, 재활, 그리고 인간-컴퓨터 상호작용 등 다양한 사회적 수요와 변화에도 적극적으로 대응할 수 있는 잠재력을 가진 기반 기술로 주목받고 있다. 본 논문은 인간 골격 데이터(Skeleton Data)를 활용한 행동 인식 및 평가 인공지능(AI) 모델을 제안하고, 이를 수어 인식과 재활 평가라는 실제 응용 분야에 적용한 결과를 다룬다. 최근 신경과학 및 딥러닝 기술의 발전은 인간 행동의 시공간적 특성을 정밀하게 분석하고, 개인별 움직임 차이를 반영한 맞춤형 평가 및 피드백 제공이 가능하게 하였다. 본 연구에서는 RGB-D 기반 영상 데이터로부터 Skeleton keypoint를 추출하고, 시공간 그래프 합성곱 신경망(ST-GCN), 3D CNN, Vision Transformer(ViT), Temporal Attention 등 최신 딥러닝 구조를 융합하여 복합적이고 정밀한 행동 인식 및 평가 모델을 개발하였다.
      수어 인식 분야에서는 Skeleton 기반 시공간 특징 추출과 히트맵 전처리, 3D CNN-ViT 혼합 구조를 활용해 복잡한 수어 패턴을 효과적으로 학습하였으며, 기존보다 우수한 인식 정확도와 강인한 일반화 성능을 확인하였다. 재활 평가 분야에서는 뇌졸중 환자 및 비장애인 데이터를 바탕으로, Temporal Attention이 결합된 ST-GCN 기반 회귀 모델을 통해 상지 재활 동작의 평가 점수를 효과적으로 예측하였고, 다양한 비교 실험을 통해 모델 설계의 타당성을 검증하였다. 특히, 비장애인 기준 없이도 환자 맞춤형 평가가 가능함을 실증하여, 실제 임상 및 가정 재활 환경에 적용 가능한 평가 시스템임을 제시하였다.
      또한, 시각적 Skeleton 히트맵 피드백 등 사용자 친화적 인터페이스를 구현함으로써, 인공지능 기반 평가 결과가 환자·치료사 모두에게 직관적이고 해석 가능하도록 하였다. 데이터 구성, 임상적 적용성, 평가 지표의 다양성 등 현실적 제약을 고려한 종합적 분석을 통해 skeleton 기반 시공간 딥러닝이 다양한 행동 인식·평가 문제에 범용적으로 적용될 수 있음을 보였으며, 사회적 약자(농인, 뇌졸중 환자 등)의 기능 회복 및 삶의 질 향상에 기여할 수 있는 지능형 재활 평가 시스템의 개발 가능성을 제시하였다.
      번역하기

      인간 행동 인식(Human Action Recognition; HAR)은 사람의 동작과 활동 데이터를 입력으로 받아 각 동작의 시공간적·구조적 특징을 학습하여, 동작의 종류를 자동으로 판별하는 딥러닝 모델 연구 분...

      인간 행동 인식(Human Action Recognition; HAR)은 사람의 동작과 활동 데이터를 입력으로 받아 각 동작의 시공간적·구조적 특징을 학습하여, 동작의 종류를 자동으로 판별하는 딥러닝 모델 연구 분야를 의미한다. HAR은 안전 모니터링, 헬스케어, 스마트 공간 등 다양한 분야에서 핵심 기술로 활용될 수 있으며, 컴퓨팅 성능의 비약적 발전에 힘입어 점차 복잡하고 정밀한 인간의 움직임까지 데이터로 해석하고 학습할 수 있게 되었다. 최근에는 영상 및 센서 기반의 raw 움직임 데이터를 효과적으로 처리하는 기술이 고도화되면서, HAR은 미래 사회의 고령화, 맞춤형 의료, 재활, 그리고 인간-컴퓨터 상호작용 등 다양한 사회적 수요와 변화에도 적극적으로 대응할 수 있는 잠재력을 가진 기반 기술로 주목받고 있다. 본 논문은 인간 골격 데이터(Skeleton Data)를 활용한 행동 인식 및 평가 인공지능(AI) 모델을 제안하고, 이를 수어 인식과 재활 평가라는 실제 응용 분야에 적용한 결과를 다룬다. 최근 신경과학 및 딥러닝 기술의 발전은 인간 행동의 시공간적 특성을 정밀하게 분석하고, 개인별 움직임 차이를 반영한 맞춤형 평가 및 피드백 제공이 가능하게 하였다. 본 연구에서는 RGB-D 기반 영상 데이터로부터 Skeleton keypoint를 추출하고, 시공간 그래프 합성곱 신경망(ST-GCN), 3D CNN, Vision Transformer(ViT), Temporal Attention 등 최신 딥러닝 구조를 융합하여 복합적이고 정밀한 행동 인식 및 평가 모델을 개발하였다.
      수어 인식 분야에서는 Skeleton 기반 시공간 특징 추출과 히트맵 전처리, 3D CNN-ViT 혼합 구조를 활용해 복잡한 수어 패턴을 효과적으로 학습하였으며, 기존보다 우수한 인식 정확도와 강인한 일반화 성능을 확인하였다. 재활 평가 분야에서는 뇌졸중 환자 및 비장애인 데이터를 바탕으로, Temporal Attention이 결합된 ST-GCN 기반 회귀 모델을 통해 상지 재활 동작의 평가 점수를 효과적으로 예측하였고, 다양한 비교 실험을 통해 모델 설계의 타당성을 검증하였다. 특히, 비장애인 기준 없이도 환자 맞춤형 평가가 가능함을 실증하여, 실제 임상 및 가정 재활 환경에 적용 가능한 평가 시스템임을 제시하였다.
      또한, 시각적 Skeleton 히트맵 피드백 등 사용자 친화적 인터페이스를 구현함으로써, 인공지능 기반 평가 결과가 환자·치료사 모두에게 직관적이고 해석 가능하도록 하였다. 데이터 구성, 임상적 적용성, 평가 지표의 다양성 등 현실적 제약을 고려한 종합적 분석을 통해 skeleton 기반 시공간 딥러닝이 다양한 행동 인식·평가 문제에 범용적으로 적용될 수 있음을 보였으며, 사회적 약자(농인, 뇌졸중 환자 등)의 기능 회복 및 삶의 질 향상에 기여할 수 있는 지능형 재활 평가 시스템의 개발 가능성을 제시하였다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Human Action Recognition (HAR) refers to a deep learning research field that aims to automatically classify human motions and activities by learning the spatiotemporal and structural characteristics of various actions. HAR has emerged as a core technology across diverse application domains, including safety monitoring, healthcare, and smart environments. As computational performance advances, it has become possible to analyze even complex and subtle human movements as data. Recently, the sophistication of techniques for processing raw video and sensor-based motion data has positioned HAR as a foundational technology for meeting societal needs such as population aging, personalized medicine, rehabilitation, and human-computer interaction. This study proposes an artificial intelligence (AI) model for human action recognition and assessment based on Skeleton data, and applies the model to two practical domains: sign language recognition and rehabilitation assessment. With advances in neuroscience and deep learning, it has become possible to analyze human motion patterns with greater precision and provide individualized assessments and feedback. We extract Skeleton keypoints from RGB-D video data and develop a comprehensive action recognition and assessment model by integrating state-of-the-art deep learning architectures, including spatio-temporal graph convolutional networks (ST-GCN), 3D convolutional neural networks (3D CNN), vision transformers (ViT), and temporal attention mechanisms.
      For sign language recognition, The approach integrates Skeleton-based spatiotemporal feature extraction, heatmap preprocessing, and a hybrid 3D CNN–ViT architecture, enabling the model to effectively learn the complex patterns of sign language and achieve superior recognition accuracy and robust generalization compared to baseline methods. In rehabilitation assessment, using data from both stroke patients and non-disabled individuals, we implement an ST-GCN-based regression model with temporal attention to predict upper-limb rehabilitation scores. The Proposed model demonstrates significant improvements in absolute and relative error metrics over baselines, and extensive ablation studies validate the design. This study shows that reliable patient-specific assessment is possible even without reference data from non-disabled subjects, indicating the feasibility of applying the system in both clinical and home rehabilitation environments.
      Furthermore, A user-friendly interface with visual Skeleton heatmap feedback, makes AI-based assessment results intuitive and interpretable for both patients and clinicians. Comprehensive analysis—including dataset configuration, clinical applicability, and diverse evaluation metrics—confirms the versatility of Skeleton-based spatiotemporal deep learning across various recognition and assessment tasks. The findings highlight the potential for intelligent rehabilitation assessment systems to enhance the functional recovery and quality of life of vulnerable populations, such as the Deaf and stroke patients.
      번역하기

      Human Action Recognition (HAR) refers to a deep learning research field that aims to automatically classify human motions and activities by learning the spatiotemporal and structural characteristics of various actions. HAR has emerged as a core techno...

      Human Action Recognition (HAR) refers to a deep learning research field that aims to automatically classify human motions and activities by learning the spatiotemporal and structural characteristics of various actions. HAR has emerged as a core technology across diverse application domains, including safety monitoring, healthcare, and smart environments. As computational performance advances, it has become possible to analyze even complex and subtle human movements as data. Recently, the sophistication of techniques for processing raw video and sensor-based motion data has positioned HAR as a foundational technology for meeting societal needs such as population aging, personalized medicine, rehabilitation, and human-computer interaction. This study proposes an artificial intelligence (AI) model for human action recognition and assessment based on Skeleton data, and applies the model to two practical domains: sign language recognition and rehabilitation assessment. With advances in neuroscience and deep learning, it has become possible to analyze human motion patterns with greater precision and provide individualized assessments and feedback. We extract Skeleton keypoints from RGB-D video data and develop a comprehensive action recognition and assessment model by integrating state-of-the-art deep learning architectures, including spatio-temporal graph convolutional networks (ST-GCN), 3D convolutional neural networks (3D CNN), vision transformers (ViT), and temporal attention mechanisms.
      For sign language recognition, The approach integrates Skeleton-based spatiotemporal feature extraction, heatmap preprocessing, and a hybrid 3D CNN–ViT architecture, enabling the model to effectively learn the complex patterns of sign language and achieve superior recognition accuracy and robust generalization compared to baseline methods. In rehabilitation assessment, using data from both stroke patients and non-disabled individuals, we implement an ST-GCN-based regression model with temporal attention to predict upper-limb rehabilitation scores. The Proposed model demonstrates significant improvements in absolute and relative error metrics over baselines, and extensive ablation studies validate the design. This study shows that reliable patient-specific assessment is possible even without reference data from non-disabled subjects, indicating the feasibility of applying the system in both clinical and home rehabilitation environments.
      Furthermore, A user-friendly interface with visual Skeleton heatmap feedback, makes AI-based assessment results intuitive and interpretable for both patients and clinicians. Comprehensive analysis—including dataset configuration, clinical applicability, and diverse evaluation metrics—confirms the versatility of Skeleton-based spatiotemporal deep learning across various recognition and assessment tasks. The findings highlight the potential for intelligent rehabilitation assessment systems to enhance the functional recovery and quality of life of vulnerable populations, such as the Deaf and stroke patients.

      더보기

      목차 (Table of Contents)

      • 제1장 서 론 1
      • 1.1 연구 배경 및 목적 1
      • 1.2 연구 내용 및 방법 3
      • 1.2.1 인간 골격 그래프 기반 행동 인식 3
      • 1.2.2 인간 행동 인식을 위한 시간축 학습 강화 5
      • 제1장 서 론 1
      • 1.1 연구 배경 및 목적 1
      • 1.2 연구 내용 및 방법 3
      • 1.2.1 인간 골격 그래프 기반 행동 인식 3
      • 1.2.2 인간 행동 인식을 위한 시간축 학습 강화 5
      • 1.3 인간 행동 인식 응용 연구 8
      • 1.3.1 수어를 위한 인간 행동 인식 9
      • 1.3.2 재활을 위한 인간 행동 인식 10
      • 제2장 수어 인식을 위한 인간 골격 기반 모델 연구 14
      • 2.1 수어 연구 배경 및 목적 14
      • 2.2 수어 인식을 위한 인간 골격 기반 인공지능 모델 연구 15
      • 2.2.1 한국전자기술연구원(KETI) 데이터 세트 15
      • 2.2.2 히트맵 전처리 16
      • 2.2.3 3D CNN-ViT 혼합 모델 17
      • 2.2.4 모델 입력 전처리 18
      • 2.3 실험 결과 20
      • 2.3.1 발화자 데이터 세트별 모델 추론 결과 22
      • 2.3.2 시간 정보량에 따른 모델 성능 비교 24
      • 2.4 결론 24
      • 제3장 재활을 위한 인간 골격 기반 모델 연구 26
      • 3.1 연구 배경 및 목적 26
      • 3.2 연구 내용 28
      • 3.2.1 인식(Recognition)과 평가(Assessment) 28
      • 3.2.2 재활 동작 데이터 수집 및 특성 29
      • 3.2.3 제안 모델 구조 34
      • 3.3 실험 37
      • 3.3.1 데이터세트 구성 37
      • 3.3.2 데이터 전처리 41
      • 3.3.3 모델 학습 및 검증 환경 42
      • 3.4 실험 결과 42
      • 3.4.1 데이터세트 별 모델 성능 평가 42
      • 3.4.2 주요 구성 방법론 적용 비교 실험 48
      • 3.5 결론 50
      • 제4장 결 론 53
      • 참고문헌 54
      • ABSTRACT 63
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼