http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
손을 다루는 컴퓨터 비전 작업들을 위한 멀티 모달 합성 데이터 생성 방법
이창화 ( Changhwa Lee ),이선경 ( Seongyeong Lee ),김동욱 ( Donguk Kim ),정찬양 ( Chanyang Jeong ),백승렬 ( Seungryul Baek ) 한국정보처리학회 2020 한국정보처리학회 학술대회논문집 Vol.27 No.2
본 논문에서는 3D 메시 정보, RGB-D 손 자세 및 2D/3D 손/세그먼트 마스크를 포함하여 인간의 손과 관련된 다양한 컴퓨터 비전 작업에 사용할 수 있는 새로운 다중 모달 합성 벤치마크를 제안 하였다. 생성된 데이터셋은 기존의 대규모 데이터셋인 BigHand2.2M 데이터셋과 변형 가능한 3D 손 메시(mesh) MANO 모델을 활용하여 다양한 손 포즈 변형을 다룬다. 첫째, 중복되는 손자세를 줄이기 위해 전략적으로 샘플링하는 방법을 이용하고 3D 메시 모델을 샘플링된 손에 피팅한다. 3D 메시의 모양 및 시점 파라미터를 탐색하여 인간 손 이미지의 자연스러운 가변성을 처리한다. 마지막으로, 다중 모달리티 데이터를 생성한다. 손 관절, 모양 및 관점의 데이터 공간을 기존 벤치마크의 데이터 공간과 비교한다. 이 과정을 통해 제안된 벤치마크가 이전 작업의 차이를 메우고 있음을 보여주고, 또한 네트워크 훈련 과정에서 제안된 데이터를 사용하여 RGB 기반 손 포즈 추정 실험을 하여 생성된 데이터가 양질의 질과 양을 가짐을 보여준다. 제안된 데이터가 RGB 기반 3D 손 포즈 추정 및 시맨틱 손 세그멘테이션과 같은 품질 좋은 큰 데이터셋이 부족하여 방해되었던 작업에 대한 발전을 가속화할 것으로 기대된다.
김동욱 ( Donguk Kim ),이선경 ( Seongyeong Lee ),정찬양 ( Chanyang Jeong ),이창화 ( Changhwa Lee ),백승렬 ( Seungryul Baek ) 한국정보처리학회 2020 한국정보처리학회 학술대회논문집 Vol.27 No.2
본 논문에서는 사람의 손에 관한 개별적으로 분리되어 진행되고 있는 손 위치 추정, 손 자세 추정, 손 동작 인식 작업을 통합하는 Faster-RCNN기반의 프레임워크를 제안하였다. 제안된 프레임워크에서는 RGB 동영상을 입력으로 하여, 먼저 손 위치에 대한 박스를 생성하고, 생성된 박스 정보를 기반으로 손 자세와 동작을 인식하도록 한다. 손 위치, 손 자세, 손 동작에 대한 정답을 동시에 모두 가지는 데이터셋이 존재하지 않기 때문에 Egohands, FPHA 데이터를 동시에 효과적으로 사용하는 방안을 제안하였으며 제안된 프레임워크를 FPHA데이터에 평가하였다., 손 위치 추정 정확도는 mAP 90.3을 기록했고, 손 동작 인식은 FPHA의 정답을 사용한 정확도에 근접한 70.6%를 기록하였다.