인간 행동 인식(Human Action Recognition; HAR)은 사람의 동작과 활동 데이터를 입력으로 받아 각 동작의 시공간적·구조적 특징을 학습하여, 동작의 종류를 자동으로 판별하는 딥러닝 모델 연구 분...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17374206
성남 : 가천대학교 글로벌캠퍼스 일반대학원, 2026
학위논문(석사) -- 가천대학교 글로벌캠퍼스 일반대학원 , 인공지능학과 , 2026. 2
2026
한국어
경기도
; 26 cm
지도교수: 최재용
I804:41005-200000943413
0
상세조회0
다운로드인간 행동 인식(Human Action Recognition; HAR)은 사람의 동작과 활동 데이터를 입력으로 받아 각 동작의 시공간적·구조적 특징을 학습하여, 동작의 종류를 자동으로 판별하는 딥러닝 모델 연구 분...
인간 행동 인식(Human Action Recognition; HAR)은 사람의 동작과 활동 데이터를 입력으로 받아 각 동작의 시공간적·구조적 특징을 학습하여, 동작의 종류를 자동으로 판별하는 딥러닝 모델 연구 분야를 의미한다. HAR은 안전 모니터링, 헬스케어, 스마트 공간 등 다양한 분야에서 핵심 기술로 활용될 수 있으며, 컴퓨팅 성능의 비약적 발전에 힘입어 점차 복잡하고 정밀한 인간의 움직임까지 데이터로 해석하고 학습할 수 있게 되었다. 최근에는 영상 및 센서 기반의 raw 움직임 데이터를 효과적으로 처리하는 기술이 고도화되면서, HAR은 미래 사회의 고령화, 맞춤형 의료, 재활, 그리고 인간-컴퓨터 상호작용 등 다양한 사회적 수요와 변화에도 적극적으로 대응할 수 있는 잠재력을 가진 기반 기술로 주목받고 있다. 본 논문은 인간 골격 데이터(Skeleton Data)를 활용한 행동 인식 및 평가 인공지능(AI) 모델을 제안하고, 이를 수어 인식과 재활 평가라는 실제 응용 분야에 적용한 결과를 다룬다. 최근 신경과학 및 딥러닝 기술의 발전은 인간 행동의 시공간적 특성을 정밀하게 분석하고, 개인별 움직임 차이를 반영한 맞춤형 평가 및 피드백 제공이 가능하게 하였다. 본 연구에서는 RGB-D 기반 영상 데이터로부터 Skeleton keypoint를 추출하고, 시공간 그래프 합성곱 신경망(ST-GCN), 3D CNN, Vision Transformer(ViT), Temporal Attention 등 최신 딥러닝 구조를 융합하여 복합적이고 정밀한 행동 인식 및 평가 모델을 개발하였다.
수어 인식 분야에서는 Skeleton 기반 시공간 특징 추출과 히트맵 전처리, 3D CNN-ViT 혼합 구조를 활용해 복잡한 수어 패턴을 효과적으로 학습하였으며, 기존보다 우수한 인식 정확도와 강인한 일반화 성능을 확인하였다. 재활 평가 분야에서는 뇌졸중 환자 및 비장애인 데이터를 바탕으로, Temporal Attention이 결합된 ST-GCN 기반 회귀 모델을 통해 상지 재활 동작의 평가 점수를 효과적으로 예측하였고, 다양한 비교 실험을 통해 모델 설계의 타당성을 검증하였다. 특히, 비장애인 기준 없이도 환자 맞춤형 평가가 가능함을 실증하여, 실제 임상 및 가정 재활 환경에 적용 가능한 평가 시스템임을 제시하였다.
또한, 시각적 Skeleton 히트맵 피드백 등 사용자 친화적 인터페이스를 구현함으로써, 인공지능 기반 평가 결과가 환자·치료사 모두에게 직관적이고 해석 가능하도록 하였다. 데이터 구성, 임상적 적용성, 평가 지표의 다양성 등 현실적 제약을 고려한 종합적 분석을 통해 skeleton 기반 시공간 딥러닝이 다양한 행동 인식·평가 문제에 범용적으로 적용될 수 있음을 보였으며, 사회적 약자(농인, 뇌졸중 환자 등)의 기능 회복 및 삶의 질 향상에 기여할 수 있는 지능형 재활 평가 시스템의 개발 가능성을 제시하였다.
다국어 초록 (Multilingual Abstract)
Human Action Recognition (HAR) refers to a deep learning research field that aims to automatically classify human motions and activities by learning the spatiotemporal and structural characteristics of various actions. HAR has emerged as a core techno...
Human Action Recognition (HAR) refers to a deep learning research field that aims to automatically classify human motions and activities by learning the spatiotemporal and structural characteristics of various actions. HAR has emerged as a core technology across diverse application domains, including safety monitoring, healthcare, and smart environments. As computational performance advances, it has become possible to analyze even complex and subtle human movements as data. Recently, the sophistication of techniques for processing raw video and sensor-based motion data has positioned HAR as a foundational technology for meeting societal needs such as population aging, personalized medicine, rehabilitation, and human-computer interaction. This study proposes an artificial intelligence (AI) model for human action recognition and assessment based on Skeleton data, and applies the model to two practical domains: sign language recognition and rehabilitation assessment. With advances in neuroscience and deep learning, it has become possible to analyze human motion patterns with greater precision and provide individualized assessments and feedback. We extract Skeleton keypoints from RGB-D video data and develop a comprehensive action recognition and assessment model by integrating state-of-the-art deep learning architectures, including spatio-temporal graph convolutional networks (ST-GCN), 3D convolutional neural networks (3D CNN), vision transformers (ViT), and temporal attention mechanisms.
For sign language recognition, The approach integrates Skeleton-based spatiotemporal feature extraction, heatmap preprocessing, and a hybrid 3D CNN–ViT architecture, enabling the model to effectively learn the complex patterns of sign language and achieve superior recognition accuracy and robust generalization compared to baseline methods. In rehabilitation assessment, using data from both stroke patients and non-disabled individuals, we implement an ST-GCN-based regression model with temporal attention to predict upper-limb rehabilitation scores. The Proposed model demonstrates significant improvements in absolute and relative error metrics over baselines, and extensive ablation studies validate the design. This study shows that reliable patient-specific assessment is possible even without reference data from non-disabled subjects, indicating the feasibility of applying the system in both clinical and home rehabilitation environments.
Furthermore, A user-friendly interface with visual Skeleton heatmap feedback, makes AI-based assessment results intuitive and interpretable for both patients and clinicians. Comprehensive analysis—including dataset configuration, clinical applicability, and diverse evaluation metrics—confirms the versatility of Skeleton-based spatiotemporal deep learning across various recognition and assessment tasks. The findings highlight the potential for intelligent rehabilitation assessment systems to enhance the functional recovery and quality of life of vulnerable populations, such as the Deaf and stroke patients.
목차 (Table of Contents)