RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • Improving Efficiency in Large-Scale Self-Supervised Video Representation Learning

        이상호 서울대학교 대학원 2023 국내박사

        RANK : 232271

        비디오는 학습에 사용할 수 있는 동적이고 멀티모달(multimodal)한 시그널을 제공하기 때문에 컴퓨터비전과 기계학습에 있어서 아주 매력적인 데이터원이다. 특히 비디오 라벨링에는 시간적, 금전적 비용이 많이 들기 때문에 최근에는 비디오 이해를 위해 자기지도 비디오 표현학습법이 많이 주목받고 있다. 하지만 자기지도학습법은 주로 대규모 학습으로 진행되어 많은 연산 및 메모리 자원이 필요로 한다. 또한, 우리가 구할 수 있는 현실 속 비디오들은 대부분 노이즈를 많이 담고 있어 인간이 별도로 검수하지 않는 한 학습에 사용하기 좋은 비디오 데이터를 구하기가 어려워 대규모 데이터 수집에 어려움이 있다. 본 학위논문에서는, 위에서 언급된 자기지도 비디오 표현학습법과 관련된 문제들을 심층적으로 알아보고 학습의 효율성을 증대시키기 위한 세 가지 해결책을 제시한다. 첫 번째로, 라벨이 달리지 않은 비디오를 별도의 디코딩 과정 없이 학습에 사용할 수 있는 방법을 알아본다. 비디오는 보통 MPEG와 같은 압축된 형식으로 저장이 되고, 이를 디코딩하기 위해서는 많은 연산 자원이 필요하다. 본 논문에서 제시하는 새로운 모델 구조와 pretext task들은 최소한의 성능 감소만으로 압축된 형태의 비디오에서 학습이 가능하게 해주며 디코딩을 생략하여 빠른 비디오 처리를 가능하게 해준다. 두 번째로, 라벨이 달리지 않은 비디오로부터 문맥화된 청각-시각 표현을 자기지도학습으로 배우기 위한 양방향 멀티모달 트랜스포머(Transformer) 구조를 제시한다. 트랜스포머 모델이 많은 메모리 자원을 소요하기 때문에 기존에 멀티모달 트랜스포머 모델은 대규모로 종단간 학습(end-to-end training)을 진행하기가 어려웠다. 저차원 근사법에 기반한 행렬 분해를 통해 본 논문에서는 멀티모달 트랜스포머 모델의 크기를 줄여 성공적으로 종단간 학습시켰으며, 다양한 태스크에서 좋은 성능을 거두었다. 마지막으로, 청각-시각 자기지도 표현학습법에 사용할 수 있는 비디오 데이터를 모으기 위한 확장 가능하고(scalable) 자동화된 수집 파이프라인을 제안한다. 이 파이프라인은 상호정보량(Mutual Information)에 기반한 부분 집합 선택 알고리즘을 통해 노이즈가 있는 데이터를 필터링하며, 이를 통해 수집된 데이터셋에서 학습된 청각 및 시각 모델들은 인간의 검수를 통해 만들어진 기존 데이터셋에서 학습된 모델과 비교하여 비슷하거나 더 나은 성능을 보인다. 본 논문에서는 이 파이프라인을 이용하여 청각 및 시각 표현학습을 위해 사용할 수 있는, 1억 개의 비디오 클립으로 구성된 오픈 도메인 비디오 데이터셋 ACAV100M을 구성하였다. Video is a very attractive data source for computer vision and machine learning; it contains dynamic and multimodal signals to learn from. Since adding annotations to videos is very expensive, self-supervised video representation learning has gained significant attention. However, self-supervised learning requires large-scale training, so we need large compute and memory resources. Furthermore, real-world videos are usually very noisy, so finding good video data to learn from requires human verification, which hinders large-scale data collection. In this thesis, we explore these problems in self-supervised video representation learning and propose the following three solutions to improve learning efficiency. First, we investigate how to learn from unlabeled videos without decoding them. Videos are usually stored in a compressed format, e.g., MPEG, and decoding them requires significant compute resources. Our novel architecture and proposed pretext tasks allow us to learn from unlabeled compressed videos with minimal performance degradation and achieve fast video processing time. Second, we introduce a multimodal bidirectional Transformer architecture for self-supervised learning of contextualized audio-visual representation from unlabeled videos. End-to-end training of multimodal Transformers is challenging due to the large memory requirement of Transformer architecture. With our novel parameter reduction technique based on matrix decomposition with low-rank approximation, we successfully train our multimodal Transformer and achieve competitive results in various downstream tasks. Lastly, we propose an automatic and scalable data collection pipeline for self-supervised audio-visual representation learning. We curate noisy video data using an MI-based subset selection algorithm. Audio and visual models trained on the resulting datasets yield competitive or better performance than those trained on existing, manually verified datasets. We release a large-scale open-domain video dataset, ACAV100M, consisting of 100M clips curated with our pipeline for audio-visual representation learning.

      • 비디오 의미 구간 탐지를 위한 후보 구간 매칭 및 보정 네트워크 : 2D 시간적 후보 구간 보정 및 크로스 모달 대조 학습 이용

        설무아 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 232271

        Temporal moment localization (TML) aims to retrieve the best moment in a video that matches a given sentence query. This task is challenging as it requires understanding the relationship between a video and a sentence, as well as the semantic meaning of both. TML methods using 2D temporal maps, which represent proposal features or scores on all moment proposals with the boundaries of start and end times on the m and n axes, have shown performance improvements by modeling moment proposals in relation to each other. The methods, however, are limited by the coarsely pre-defined fixed boundaries of target moments, which depend on the length of training videos and the amount of memory available. To overcome this limitation, we propose a boundary matching and refinement network (BMRN) that generates 2D boundary matching and refinement maps along with a proposal feature map to obtain the final proposal score map. Our BMRN adjusts the fixed boundaries of moment proposals with predicted center and length offsets from boundary refinement maps. In addition, we introduce the length-aware proposal-interactive feature map extraction that combines a cross-modal feature map and a similarity map between the predicted duration of the target moment and each moment proposal and then obtain the final proposal feature map through two-stream proposal interaction by applying for two-dimensional convolution and transformer layers to the combined feature map. We also improve the performance of BMRN with our cross-modal contrastive approach for TML. BMRN and BMRN-CCL outperform SoTA methods on Charades-STA and ActivityNet Captions datasets, outperforming state-of-the-art methods by a large margin. Through comprehensive ablation studies, we also show the effectiveness of component losses, modules for cross-modal interaction, proposal interaction, boundary matching and refinement, and cross-modal contrastive learning. Key words : Temporal moment localization, Video understaning, multi-modal learning, 2D-map proposal refinement, Cross-modal contrastive learning 비디오 의미 구간 탐지(Temporal moment localization, TML)는 주어진 문장의 의미에 맞는 비디오 구간을 찾는 것을 목표로 한다. 이 작업은 문장의 의미를 이해하고, 비디오 장면과 문장 간의 관계 성을 찾아야 하므로, 매우 어려운 과제에 속한다. 이를 위한 기존 방법론으로 y축을 시작 시간 x축을 종료 시간으로 하는 2D 시간적 후보 맵을 만들어서, 각 후보 구간의 점수를 도출하는 방식이다. 이 방법은 후보 구간들 간의 상호작용을 모델링함으로써 큰 성능 향상 을 보였다. 그러나 기존 방법의 한계점으로 입력된 비디오의 길이 또는 사용 가능한 컴퓨터 메모리 양에 따라 사전에 정의되고 경계 가 고정된 후보 구간을 이용하므로 정답 구간에 대해 정확한 탐지 를 할 수 없다. 이러한 한계점을 극복하고자, 구간 탐지 및 경계 보 정 네트워크(Boundary Matching and Refinement Network, BMRN)를 제안하였다. 이 네트워크는 최종 후보 구간 점수 맵을 얻 기 위해 2D 후보 구간 특징과 구간 매칭 및 후보 경계 보정 맵을 생성 한다. 후보 구간 보정 맵은 후보 구간의 중심 위치 및 길이를 보정하여 고정된 경계를 조정한다. 또한 크로스 어텐션을 활용하여 후보 구간 길이 스케일에 따른 2D 후보 특징 맵을 추출 하였고, 정 답 구간의 길이를 예측해 각 후보 구간과의 길이 유사성 맵을 만들 어 후보 구간에 바이어스를 주는 방법을 제안하였다. 그리고 후보 구간들 간의 상호작용을 위해 컨볼루션 레이어와 트랜스포머 레이 어를 도입해 보다 효과적인 상호작용 방법을 제시하였다. 또한 크로 스 모달 대조 학습을 통해 비디오와 문장 특징을 보다 정밀하게 연 관시킨 모델인 BMRN-CCL은 기존 BMRN의 성능을 높였다. 제안 한 BMRN-CCL 네트워크는 두 가지 벤치마크 데이터 셋 Charades-STA, ActivityNet Captions에서 기존 SoTA(State of the Art) 모델 대비 큰 마진으로 성능 향상을 보였다. 그리고 다양한 Ablation 실험 결과를 통해 각 손실 함수 및 모듈의 효과성을 입증 하였고, 정성적 실험 결과를 통해 제안한 방법이 2D 후보 점수 맵 이 정답 구간을 잘 추종하며 각 후보 구간의 경계 보정 또한 잘 되 고 있음을 확인할 수 있다. 주요단어(Keyword) : 비디오 의미 구간 탐지, 비디오 이해, 멀티 모 달 학습, 2D 후보 구간 보정, 크로스 모달 대조 학습

      • Large Scale Video Understanding with Narrative Description

        유영재 서울대학교 대학원 2021 국내박사

        RANK : 232269

        Extensive contributions are being made to develop intelligent agents that can recognize and communicate with the world. In this sense, various video-language tasks have drawn a lot of interests in computer vision research, including image/video captioning, video retrieval and video question answering. It can be applied to high-level computer vision tasks and various future industries such as search engines, social marketing, automated driving, and robotics support through QA / dialog generation for the surrounding environment. However, despite these developments, video-language learning suffers from a higher degree of complexity. This thesis investigates methodologies for learning the relationship between videos and free-formed languages, including explanations, conversations, and question-and-answers, so that the machine can easily adapt to target downstream tasks. First, we introduce several methods to learn the relationship between long sentences and videos efficiently. We introduce the approaches for supervising human attention transfer for the video attention model, which shows the video attention mechanism can benefit from explicit human gaze labels. Next, we introduce the end-to-end semantic attention method, which further reduces the visual attention algorithm's complexity by using the representative visual concept word detected by the attention-based detector. As a follow-up study on previous methods, we introduce a JSFusion (Joint Sequence Fusion) method that enables efficient video search and QA by enabling many-to-many matching of attention model. Next, we introduce the CiSIN(Character in Story Identification Network), which uses Attention to increase the performance of character grounding and character re-identification in the movie. Finally, we introduce Transitional Adaptation, which promotes the caption generation models to generates coherent narratives for long videos. In summary, this thesis presents a novel approaches for automatic video description generation/retrieval and shows the benefits of extracting linguistic knowledge for object and motion in the video as well as the advantage of multimodal audio-visual learning for understanding videos. Since the proposed methods are easily adapted to any video-language tasks, it is expected to be applied to the latest models, bringing additional performance improvements. Moving forward, we plan to design an unsupervised video learning framework that can solve many challenges in the industry by integrating an unlimited amount of video, audio, and free-formed language data from the web. 시각-언어 학습은 이미지/비디오 캡션(Image/Video captioning), 시각 질의응답(Visual Question and Answering), 비디오 검색(Video Retrieval), 장면 이해(scene understanding), 이벤트 인식(event detection) 등 고차원의 컴퓨터 비전 태스크(task)뿐만 아니라 주변 환경에 대한 질의 응답 및 대화 생성(Dialogue Generation)으로 인터넷 검색 뿐만 아니라 최근 활발한 소셜 마케팅(Social Marketing) 자율 주행(Automated Driving), 로보틱스(Robotics)을 보조하는 등 여러 미래 산업에 적용될 수 있어 활발히 연구되고 있는 중요한 분야이다. 컴퓨터 비젼과 자연어 처리는 이러한 중요성을 바탕으로 각자 고유한 영역에서 발전을 거듭해 왔으나, 최근 딥러닝의 등장과 함께 눈부시게 발전하면서 서로를 보완하며 학습 결과를 향상시키는 등 큰 시너지 효과를 발휘하게 되었다. 하지만 이런 발전에도 불구하고, 비디오-언어간 학습은 문제의 복잡도가 한층 높아 어려움을 겪게 되는 경우가 많다. 본 논문에서는 비디오와 이에 대응하는 설명, 대화, 질의 응답 등 더 나아가 자유 형태의 언어 (Free-formed language)간의 관계를 더욱 효율적으로 학습하고, 목표 임무에 잘 대응할 수 있도록 개선하는 것을 목표로 한다. 먼저, 시각적 복잡도가 이미지보다 높은 비디오와 긴 문장 사이의 관계를 효율적으로 학습하기 위한 여러 방법들을 소개한다. 인간의 주의 인식(Attention) 모델을 비디오-언어 모델에 지도 학습 하는 방법을 소개하고, 이어서 비디오에서 우선 검출된 대표 시각 단어를 매개로 하여 주의 인식(Attention) 알고리즘의 복잡도를 더욱 줄이는 의미 중심 주의 인식 (Semantic Attention) 방법, 어텐션 모델의 다대다 매칭을 기반으로 효율적인 비디오 검색 및 질의응답을 가능케 하는 비디오-언어간 융합 (Joint Sequence Fusion) 방법 등 비디오 주의 인식을 효율적으로 학습시킬 수 있는 방법들을 제시한다. 다음으로는, 주의 인식(Attention) 모델이 물체-단어 간 관계를 넘어 비디오 상에서 인물 검색 (Person Searching) 그리고 인물 재 식별 (Person Re-Identification)을 동시에 수행하며 상승작용을 일으키는 스토리 속 캐릭터 인식 신경망 (Character in Story Identification Network) 을 소개하며, 마지막으로 자기 지도 학습(Self-supervised Learning)을 통해 주의 인식(Attention) 기반 언어 모델이 긴 비디오에 대한 설명을 연관성 있게 잘 생성할 수 있도록 유도하는 방법을 소개한다. 요약하자면, 이 학위 논문에서 제안한 새로운 방법론들은 비디오-언어 학습에 해당하는 비디오 캡션(Video captioning), 비디오 검색(Video Retrieval), 시각 질의응답(Video Question and Answering)등을 해결할 수 있는 기술적 디딤돌이 되며, 비디오 캡션 학습을 통해 학습된 주의 인식 모듈은 검색 및 질의응답, 인물 검색 등 각 네트워크에 이식되면서 새로운 문제들에 대해 동시에 최고 수준(State-of-the-art)의 성능을 달성하였다. 이를 통해 비디오-언어 학습으로 얻은 언어 지식의 이전은 시각-청각을 아우르는 비디오 멀티모달 학습에 큰 도움이 되는 것을 실험적으로 보여준다. 향후 작업 방향 (Future Work)으로는 앞서 연구한 내용들을 기반으로 웹 속에 존재하는 대규모의 언어, 비디오, 오디오 데이터를 통합해 학습에 활용하여 산업계의 많은 난제를 해결할 수 있는 비지도 학습 모델을 만들고자 한다.

      • Video highlight generation with semi-automatic video database collection

        심민호 Graduate School, Yonsei University 2019 국내석사

        RANK : 232255

        기계가 영상을 이해하도록 학습시키는데 주요한 장애 요소는 학습 데이터의 부족이다. 사진에 비해, 긴 영상에서 시간 정보에 주석을 다는 것은 많은 양의 인력을 필요로 한다. 따라서 본 논문에서는 인터넷에서 구할 수 있는 문자 중계 텍스트 정보를 이용하여, 준자동으로 수집하는 대규모의 야구 비디오 데이터셋을 새롭게 소개한다. 이 데이터셋은 4200시간의 야구 경기 영상과 40만개의 시간 정보가 있는 동작 주석을 포함한다. 준자동 데이터 수집 방법을 이용하여 데이터셋에 주석을 다는 데 걸린 시간은 일주일에 불과하다. 새로운 데이터셋은 기존 데이터셋들과 비교하여 여러 도전적인 문제들을 제시한다. 1) 야구에서의 스트라이크나 볼과 같이 시각적으로 볼 때는 비슷하면서 다른 주석이 달려 있는 영상 클립들이 다수 포함되어 있다. 2) 여러 가지 영상 이해 과제에 사용될 수 있으며, 여기에는 영상 인식, 시간축에서의 액션 인식, 주어진 텍스트 정보에 맞춘 영상 정렬, 영상 요약 생성과 데이터 불균형 문제 등이 해당된다. 데이터셋의 유용성을 확인하기 위해, 여러 종류의 영상 이해 알고리즘을 사용한 광범위한 실험들을 수행하였다. 영상 요약 생성의 경우, 시각적 정보와 텍스트 정보들이 공유하는 사상공간을 활용하는 요약 네트워크의 학습법에 관한 새로운 접근법을 제시한다. 이 영상 요약 네트워크는 테스트 시점에는 텍스트 정보들을 필요로 하지 않지만, 텍스트 정보 없이 학습된 네트워크에 비해서 크게 향상된 성능을 보여준다. 일련의 실험들로부터 관찰된 결과들은 영상 이해에 관한 앞으로의 연구에 도움이 될 것이다. A major obstacle in teaching machines to understand videos is the lack of training data, as creating temporal annotations for long videos requires a huge amount of human effort. To this end, we introduce a new large-scale baseball video dataset called the BBDB, which is produced semi-automatically by using play-by-play texts available online. The BBDB contains 4200 hours of baseball game videos with 400k temporally annotated activity segments. With our semi-automatic labeling process, it took only a week to annotate our data. The new dataset has several major challenging factors compared to other datasets: 1) the dataset contains a large number of visually similar segments with different labels such as a strike event and a ball event. 2) It can be used for many video understanding tasks including video recognition, localization, text-video alignment, video highlight generation, and data imbalance problem. To observe the potential of the BBDB, we conducted extensive experiments by running many different types of video understanding algorithms on our new dataset. For video highlight generation, we propose a new approach to train a highlight network using a multi-modal embedding space shared by visual information and text semantics. The highlight network does not need text semantics when testing, but performance is greatly lifted compared to a network trained without the guidance of text information. We report findings from these experiments which can be valuable for future research in video understanding.

      • 초등영어에서 비디오 활용 수업이 학습자의 듣기 이해력과 말하기 능력, 흥미도에 미치는 영향

        권동환 부산교육대학교 교육대학원 2003 국내석사

        RANK : 232238

        초등영어에서 비디오 활용 수업이 학습자의 듣기 이해력과 말하기 능력, 흥미도에 미치는 영향

      • Learning action representation with limited information

        이필현 Graduate School, Yonsei University 2023 국내박사

        RANK : 231967

        With the tremendous growth of the volume of video content on the Internet, it has become an essential task to analyze human actions in long untrimmed videos. Although remarkable advances in the field of deep learning have allowed for constructing strong automatic video analysis models, they come at a cost—deep learning models often require costly information such as human annotations and rich data from various sources. This effectively hinders the deployment of the models in many real-world systems where the available information is restricted. To tackle the challenge, this dissertation aims to build efficient models that are able to learn action representations under constrained scenarios where only a limited amount of information can be leveraged for model training and inference. Specifically, the main focus lies in the task of temporal action localization (or detection), whose goal is to localize temporal intervals of action instances in the given video. The main contributions of this dissertation are as follows. First, we focus on utilizing video-level weak supervision for model training to alleviate the notoriously expensive cost of human annotations for temporal action localization. Specifically, we make the first attempt to model background frames given video-level labels. The key idea is to suppress the activation from background frames for precise action localization by forcing them to be classified into the auxiliary background class. Then we delve deeper into the way of background modeling and introduce a novel perspective on background frames where they are considered to be out-of-distribution samples. Secondly, we explore another type of weak supervision — point-level annotations — where only a single frame for each action instance is annotated. In this setting, we propose a pseudo-label-based approach to learn action completeness from sparse point labels. The resulting model is capable of producing more complete and accurate action predictions. Lastly, we figure out that the bottleneck of action localization models at inference is the heavy computational cost of the motion modality, i.e., optical flow. To relieve the cost, we design a decomposed cross-modal knowledge distillation pipeline to inject motion knowledge into an RGB-based model. By exploiting multimodal complementarity, the model can accurately predict action intervals at low latency, shedding light on the potential adoption of temporal action localization models in real-world systems. We believe that the action representation learning methods under the information constraints proposed in this dissertation will serve as an essential tool for real-world action analysis systems and potentially benefit various computer vision applications.

      • Normality guided multiple instance learning for weakly supervised video anomaly detection

        박성헌 Graduate School, Yonsei University 2023 국내석사

        RANK : 231967

        Weakly supervised Video Anomaly Detection (wVAD) aims to distinguish anomalies from normal events based on video-level supervision. Most existing works utilize Multiple Instance Learning (MIL) with the ranking loss to tackle this task. These methods, however, rely on noisy predictions from a MIL-based classifier for target instance selection in the ranking loss, degrading model performance. To overcome this problem, we propose Normality Guided Multiple Instance Learning (NG-MIL) framework, which encodes diverse normal patterns from noise-free normal videos into prototypes for constructing a similarity-based classifier. By ensembling predictions of two classifiers, our method could refine the anomaly scores, reducing training instability from weak labels. Moreover, we introduce normality clustering and normality guided triplet loss constraining inner bag instances to boost the effect of NG-MIL and increase the discriminability of classifiers. Extensive experiments on three public datasets (ShanghaiTech, UCF-Crime, XD-Violence) demonstrate that our method is comparable to or better than existing weakly supervised methods, achieving state-of-the-art results. Our method can be used in the real-time intelligent video surveillance system, which significantly increases monitoring efficiency.

      • Temporal action segmentation with alleviating local context fading

        김경현 중앙대학교 대학원 2023 국내석사

        RANK : 231948

        Local context fading is one of the critical limitations of temporal convolutional network (TCN) based action segmentation models. Recently, attention-based models have been addressed to solve this phenomenon. However, local context fading still exists, and another problem of error accumulation by consecutive decoders needs to be addressed. In this thesis, we suggest a new architecture, called stacked encoder-decoder transformer (SEDT), to alleviate local context fading and reduce error accumulation by consecutive decoders. SEDT consists of serials of encoder-decoder modules, each composed of an encoder with self-attention layers and a decoder with cross-attention layers, respectively. Our method preserves local context along with global context by making encoder-decoder pairs. The proposed encoder-decoder module also prevents error accumulations from consecutive decoders. Moreover, we suggest a new boundary smoothing strategy to handle the ambiguity near action boundaries. We evaluate the proposed methods for three popular action segmentation benchmark datasets: 50Salads, GTEA, and Breakfast. Experimental results show that the proposed methods are more effective than existing TCN-based models and the attention-based model. In addition, boundary smoothing by lessening action boundary ambiguity reduces over-segmentation error and more effectively detects small action segments than the previous methods. 지역적 맥락 손실 (Local Context Fading)은 시간적 컨볼루션 네트워크 (Temporal Convolutional Network; TCN) 기반 동작 분류 (Action Segmentation)의 중요한 한계 중 하나이다. 최근, 이 현상을 해결하기 위해 주의 (Attention) 기반 모델이 다루어지고 있다. 그러나 지역적 맥락 손실은 여전히 존재하며 연속 디코더에 의한 오류 누적이라는 또 다른 문제는 해결되지 않았다. 본 논문에서는 지역적 맥락 손실을 완화하면서 연속 디코더에 의한 오류 누적을 줄이기 위해 스택형 인코더-디코더 트랜스포머 (Stacked Encoder-Decoder Transformer; SEDT)라는 새로운 구조를 제안한다. SEDT는 일련의 인코더-디코더 모듈로 구성되며, 각각 자기 주의 (Self-Attention) 레이어를 가진 인코더와 교차 주의 (Cross-Attention) 레이어를 가진 디코더로 구성된다. 제안하는 방법은 인코더-디코더 쌍을 만들어 비디오 내에서 전역적 맥락 (Global Context) 과 함께 지역적 맥락 (Local Context)을 보존한다. 제안된 인코더-디코더 모듈은 또한 연속적인 디코더로부터의 오류 축적을 방지한다. 또한, 행동 경계 근처의 모호성을 처리하기 위한 새로운 경계 평활 (Boundary Smoothing)을 제안한다. 시간적 동작 분류 벤치마크 데이터 세트인 50Salads, GTEA와 Breakfast에 대한 실험 결과를 통해 제안된 방법이 기존 시간적 컨볼루션 네트워크와 주의 기반 모델보다 더 효과적이라는 것을 보여준다. 게다가, 경계 평활화는 동작 경계 모호성 (Action Boundary Ambiguity)을 줄임으로써 과분할 오류 (Over-Segmentation Error)를 줄이고 작은 동작 세그먼트를 더 잘 감지한다.

      • 어머니의 대화전략과 아동의 비디오 동화 이해간의 관계

        임지연 연세대학교 대학원 2002 국내석사

        RANK : 215917

        본 연구는 아동의 비디오 동화 이야기에 대한 이해능력이 어머니와의 상호작용 경험 유무에 따라 다른지 그리고 어머니가 사용한 대화전략의 전반적인 특성은 어떠한지 살펴본 후, 아동의 비디오 동화 이야기에 대한 이해능력과 어머니의 대화전략간의 관계를 알아보고자 시도되었다. 연구 대상은 서울시 소재 유치원 두 곳의 만 5세 아동 84명과 이들 중 52명의 어머니들이었다. 아동은 어머니와의 상호작용 집단(52명)과 비 상호작용 집단(32명)에 무선 배정되었다. 아동의 이야기 이해능력은 Morrow(1988)의 이야기 재연하기 체크리스트와 Bretherton과 Beeghly(1982)와 Dunn(1988)의 내적 상태 용어들의 출현 빈도로 분석하였고, 어머니의 대화전략은 Clarke-Stewart와 Beck(1999) 그리고 Morrow(1990)의 연구에서 사용된 대화 전략 유형을 수정·보완하여 분석하였다. 상호작용 집단의 아동은 어머니와 함께 비디오 동화를 시청하고 나서 어머니와 토의를 한 후, 비 상호작용 집단의 아동은 단독으로 시청한 후 이야기 산출 과제를 수행하였다. 모든 자료는 녹화하여 전사하였고, 연구 문제에 따라 t검증과 Pearson의 적률상관계수를 산출하였다. 본 연구의 결과를 요약하면 다음과 같다. 첫째, 아동의 비디오 동화 이야기에 대한 이해능력은 어머니와의 언어적 상호작용 기회 유무에 따라 차이가 있었다. 즉 비디오 시청 후 어머니와 언어적 상호작용을 한 집단의 아동들이 그렇지 않은 아동들에 비해 이야기의 배경, 주제, 구성, 해결, 순서 등 이야기의 전반적인 구조와 주인공이나 등장 인물의 감정이나 의도 등 내적 상태에 관해 더 높은 수준으로 이해하였다. 둘째, 아동의 비디오 동화 이야기에 대한 이해를 촉진하기 위해 어머니가 사용한 대화전략은 대화의 구조 측면에서 토의의 길이나 어머니-아동 공동 주의집중의 빈도에 비해 핵심적인 주제에 대한 집중적인 상호교환의 빈도가 매우 낮게 나타났다. 그리고 대화의 내용 측면에서는 전반적으로 질문보다는 진술의 형태로 추론적이거나 평가적인 내용보다는 축어적인 내용에 초점이 맞추어져 있었다. 셋째, 아동의 비디오 동화 이야기 이해능력은 어머니의 대화전략과 부분적으로 유의한 상관을 보였다. 즉 대화의 구조 측면에서는 어머니-아동 공동 주의집중, 핵심적인 주제에 대한 집중적인 상호교환, 잘못된 이해에 대한 수정 빈도가 높을수록 아동의 이야기 이해능력이 높았다. 대화의 내용 측면에서는 추론적 내용이 축어적 내용이나 평가적 내용보다 아동의 이야기 이해능력과 상관이 높은 것으로 나타났다. The purpose of this study was to investigate the relationship between mother's verbal strategies and child's story understanding after they watched a story videotape. The story was written by Kevin Henkes(1993). The subjects were 84 children(42 boys and 42 girls) and 52 their mothers from 2 kindergartens in Seoul. The children were randomly divided into two groups, a mother-discussion group(52 children) and a no-discussion group(32 children). The checklist of story retelling(Morrow, 1988) and categories of internal state terms(Bretherton & Beeghly, 1982; Dunn, 1988) were used to assess children's story understanding. Clarke-Stewart and Beck(1999) and Morrow(1990)'s categories were modified and used to assess mothers' verbal strategies. The children in both groups participated in the story retelling activities. Both of children's narratives and mother-child interactions were videotaped. The collected data were analyzed by t-test and Pearson's correlations. The results of this study were as follows: First, there was a significant difference in children's story understanding between the mother-discussion group and the no-discussion group. The children of the mother-discussion group understood better than those of the no-discussion group in terms of objective setting, theme, plot episodes, resolution, sequence and characters' internal states of the story. Second, most mothers nearly used extended exchanges on critical topics while they discussed and jointly attended with their children frequently. The mothers mostly focused on literal contents during mother-child interactions. Third, there were significant relationships between children's story understanding and mothers' verbal strategies. The children's story understanding was positively correlated with mother-child joint attention, extended exchanges on critical topics, correction of misunderstanding, and inferential contents.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼