RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      3D 컨볼루션을 이용한 시간 구분 네트워크 기반 행동인식

      한글로보기

      https://www.riss.kr/link?id=T15392550

      • 저자
      • 발행사항

        용인 : 단국대학교 대학원, 2019

      • 학위논문사항
      • 발행연도

        2019

      • 작성언어

        한국어

      • DDC

        004 판사항(23)

      • 발행국(도시)

        경기도

      • 기타서명

        Action Recognition Based on Temporal Segment Network Using 3D Convolution

      • 형태사항

        vi, 26 장 ; : 삽화 ; 30cm.

      • 일반주기명

        단국대학교 논문은 저작권에 의해 보호받습니다.
        지도교수:최상일
        참고문헌 : 장 23-24

      • UCI식별코드

        I804:11017-000000194310

      • 소장기관
        • 국립중앙도서관 국립중앙도서관 우편복사 서비스
        • 단국대학교 율곡기념도서관(천안) 소장기관정보
        • 단국대학교 퇴계기념도서관(중앙도서관) 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      본 논문에서는 영상데이터를 입력으로 받았을 때, 입력 영상이 어떤 행동을 하는 영상인지 분류하는 문제인 행동인식 문제를 다루고, 이를 해결하기 위한 방법으로 3D convolution 연산 하나로 시-공간적 특징을 추출하고 이에 TSN구조를 접목시킨 3D-TSN을 제안한다. 3D-TSN은 기존 3D convolution 기반의 행동인식 알고리즘과 비교하여 입력 형태는 같지만 입력을 만들어내는 방식이 달라져야 한다. 3D-TSN은 segment별로 입력 데이터를 샘플링 할 때, 시간 축으로 연속된 프레임들을 샘플링 해서 짧은 시간 정보를 학습하도록 했고, TSN구조를 사용하여 시간 축으로 멀리 있는 프레임에 대해서도 학습하도록 했다. 본 논문에서는 제안한 방법론에 대한 실험을 위해 HMDB-51 데이터 셋을 사용하였다. 그 결과 3D-TSN과 3D convolution을 이용하여 행동인식을 한 결과를 비교하면 같은 네트워크를 사용하였을 때 기준으로 3~4%정도의 성능향상이 있는 것을 확인할 수 있었다. 또 입력 데이터의 시간 축 길이를 변화하며 실험하였을 때, 3D-TSN이 3D-ResNet과 비교하여 입력데이터로 들어가는 프레임 숫자 변화에 더 강인한 것을 확인할 수 있었다. 최종적으로 3D-TSN에 optical flow를 이용한 네트워크와 two-stream으로 구성한 결과 최대 73.59%의 성능을 확인할 수 있었다.
      번역하기

      본 논문에서는 영상데이터를 입력으로 받았을 때, 입력 영상이 어떤 행동을 하는 영상인지 분류하는 문제인 행동인식 문제를 다루고, 이를 해결하기 위한 방법으로 3D convolution 연산 하나로 ...

      본 논문에서는 영상데이터를 입력으로 받았을 때, 입력 영상이 어떤 행동을 하는 영상인지 분류하는 문제인 행동인식 문제를 다루고, 이를 해결하기 위한 방법으로 3D convolution 연산 하나로 시-공간적 특징을 추출하고 이에 TSN구조를 접목시킨 3D-TSN을 제안한다. 3D-TSN은 기존 3D convolution 기반의 행동인식 알고리즘과 비교하여 입력 형태는 같지만 입력을 만들어내는 방식이 달라져야 한다. 3D-TSN은 segment별로 입력 데이터를 샘플링 할 때, 시간 축으로 연속된 프레임들을 샘플링 해서 짧은 시간 정보를 학습하도록 했고, TSN구조를 사용하여 시간 축으로 멀리 있는 프레임에 대해서도 학습하도록 했다. 본 논문에서는 제안한 방법론에 대한 실험을 위해 HMDB-51 데이터 셋을 사용하였다. 그 결과 3D-TSN과 3D convolution을 이용하여 행동인식을 한 결과를 비교하면 같은 네트워크를 사용하였을 때 기준으로 3~4%정도의 성능향상이 있는 것을 확인할 수 있었다. 또 입력 데이터의 시간 축 길이를 변화하며 실험하였을 때, 3D-TSN이 3D-ResNet과 비교하여 입력데이터로 들어가는 프레임 숫자 변화에 더 강인한 것을 확인할 수 있었다. 최종적으로 3D-TSN에 optical flow를 이용한 네트워크와 two-stream으로 구성한 결과 최대 73.59%의 성능을 확인할 수 있었다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      In this paper, we deal with the action recognition problem, which classifies the input image as the action image when the image data is input. We propose a 3D-TSN that combines TSN structure with 3D convolution. 3D-TSN has the same input format as the 3D convolution- based action recognition algorithm, but the way of generating the input should be different. When sampling an input data in a segment, the 3D-TSN samples the consecutive frames on the time axis to learn short time information and also uses the TSN structure to learn about frames far in time. In this paper, we use the HMDB-51 data set to test the proposed methodology. As a result, it was confirmed that there is a 3 ~ 4% performance improvement over the 3D convolution result. In addition, when we experimented with changing the frame number of the input data, we can confirm that it is more robust to the change of the frame number entering the input data by comparing with the 3D-convolution. When the 3D-TSN and the optical flow were constructed as a two-stream network, the maximum performance was 73.59%.
      번역하기

      In this paper, we deal with the action recognition problem, which classifies the input image as the action image when the image data is input. We propose a 3D-TSN that combines TSN structure with 3D convolution. 3D-TSN has the same input format as the...

      In this paper, we deal with the action recognition problem, which classifies the input image as the action image when the image data is input. We propose a 3D-TSN that combines TSN structure with 3D convolution. 3D-TSN has the same input format as the 3D convolution- based action recognition algorithm, but the way of generating the input should be different. When sampling an input data in a segment, the 3D-TSN samples the consecutive frames on the time axis to learn short time information and also uses the TSN structure to learn about frames far in time. In this paper, we use the HMDB-51 data set to test the proposed methodology. As a result, it was confirmed that there is a 3 ~ 4% performance improvement over the 3D convolution result. In addition, when we experimented with changing the frame number of the input data, we can confirm that it is more robust to the change of the frame number entering the input data by comparing with the 3D-convolution. When the 3D-TSN and the optical flow were constructed as a two-stream network, the maximum performance was 73.59%.

      더보기

      목차 (Table of Contents)

      • 목 차
      • Ⅰ. 서론 1
      • 목 차
      • Ⅰ. 서론 1
      • Ⅱ. 관련연구 4
      • 1. RNN 기반 방법론 4
      • 1) LRCN 4
      • 2. CNN 기반 방법론 6
      • 1) single stream 6
      • 2) two-stream 7
      • 3) Action Recognition using Temporal Segment Networks 8
      • Ⅲ. 제안하는 방법 10
      • 1. Motivation 10
      • 2. 3D CNN 및 입력데이터 11
      • 3. 3D Temporal Segment Networks 14
      • Ⅲ. 실험 및 결과 17
      • 1. 실험 환경 및 데이터 전처리 17
      • 2. 실험 결과 19
      • Ⅲ. 결론 22
      • 참고문헌 23
      • 영문요약 25
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼