http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
휴먼 모션 생성을 통한 텍스트 기반 비디오 생성 알고리즘에 관한 연구
김태훈(Taehoon Kim),정다운(Daun Jeong),박재혁(Jaehyuk Park),공경보(Kyeongbo Kong) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
최근 Text-to-Image(T2I) 생성 기술의 발전과 함께 Text-to-Video(T2V) 생성 모델이 주목받고 있다. 하지만 비디오 생성은 이미지 생성과 달리 프레임 간의 시공간적 일관성을 고려해야 하므로 사람의 동작과 같이 복잡한 움직임을 생성하는 데 어려움을 겪고 있다. 본 논문에서는 텍스트 기반 휴먼 모션 생성 기술과 2D 모션 기반 비디오 생성 기술을 결합하여 휴먼 모션을 포함한 비디오 생성의 성능을 향상한 알고리즘을 제안한다. 실험 결과, 텍스트에서 휴먼 모션을 포함한 경우 기존의 T2V 모델 대비 CLIPScore의 성능이 향상되었으며, 더 자연스러운 동작을 갖는 비디오를 생성했다.
정다운(Daun Jeong),정성훈(Jeong Seong-Hun),김재윤(Jaeyun Gim),정지훈(jihoon Jung),공경보(Kyeongbo Kong) 한국방송·미디어공학회 2022 한국방송공학회 학술발표대회 논문집 Vol.2022 No.11
최근 인공지능 기반 객체 탐지 기술이 발전함에 따라 영상 감시, 얼굴 인식, 로봇 제어, IoT, 자율주행, 제조업, 보안 등 다양한 분야에 활용되고 있다. 이에 본 논문은 발전된 객체 탐지 알고리즘을 이용하여 비전문가에겐 생소한 컴퓨터나 전기 장치 등의 단자(terminal) 모양을 구별하는 방법을 제안한다. 이를 위해 객체 탐지 프로그램인 You Only Look Once (YOLO) 알고리즘을 이용하여 입력한 단자들의 모양을 검출하는 알고리즘을 구성하였다. 일상에서 쉽게 볼 수 있는 단자들의 이미지(VGA, DVI, HDMI, DP, USB-A, USB-C)를 라벨링하여 데이터셋을 구축하였고, YOLOv4와 YOLOv5 두 버전의 알고리즘을 사용하여 성능을 검증하였다. 실험 결과 mean Average Precision(mAP) 기준 최대 92.9%의 정확도를 얻을 수 있었다. 전기 장치에 따라 단자의 모양이 다양하고, 그 종류 또한 많기 때문에 본 연구가 방송 기술 등의 여러 분야에 응용될 것으로 기대된다.