http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
영상 내의 신체 핵심 좌표 데이터를 활용한 머신러닝 기반 수어 인식 연구
김범준(Buem-Jun Kim),전형기(Hyeong-Gi Jeon),이경희(Kyoung-Hee Lee) 한국정보통신학회 2023 한국정보통신학회논문지 Vol.27 No.4
본 논문에서는 실시간 영상 내의 신체 움직임을 머신러닝 기반으로 추론하여 수어를 인식하는 시스템을 제안한다. 제안 시스템은 움직이는 신체부위의 핵심 좌표 데이터로 구성되는 모션 벡터를 머신러닝에 활용함으로써 인공신경망 모델의 훈련 시간을 줄이고 동작 인식의 정확도를 높이는 특징을 갖는다. 이러한 모션 벡터는 표현 시간이 상이한 다양한 낱말들에 대해 동일한 규격으로 구성되므로 추론의 신뢰도를 더욱 높이는 효과를 제공한다. 그리고 수어문장을 표현한 영상 중 각 낱말에 해당되는 부분 영상을 정확하게 분할해 내기 위해 점진적으로 추론 구간을 조정하면서 반복적인 신뢰도 평가를 수행하는 방법을 제시한다. 실험을 통해 영상 자체를 학습 및 추론에 이용하는 일반적인 기존 방식과 비교했을 때 훈련 시간, 추론 속도 및 신뢰도, 부분 영상의 분할 정확도 측면에서 제안 시스템이 더욱 우수한 성능을 보임을 알 수 있었다. This paper proposes a sign language recognition system based on machine learning, which can infer the meaning of body movement in realtime video. It has a feature that motion vectors constructed with keypoint data of moving body are used for machine learning. This enables the proposed system to reduce the training time of an artificial neural network model and to enhance the recognition accuracy. Since those motion vectors have the same size and format regardless of the different expression times of words, the confidence level of an inference could be further increased. To correctly divide a part of video corresponding to each word in a sentence, we propose an iterative evaluation method of confidence levels for inferences with the gradual length adjustment of video fragment. The experimental results showed that our system outperforms a conventional method using the video itself for training and inference, in training time, inference speed, confidence level of inference and accuracy of video fragmentation.