RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 비디오 의미 구간 탐지를 위한 후보 구간 매칭 및 보정 네트워크 : 2D 시간적 후보 구간 보정 및 크로스 모달 대조 학습 이용

        설무아 과학기술연합대학원대학교 한국전자통신연구원(ETRI) 2024 국내석사

        RANK : 234283

        Temporal moment localization (TML) aims to retrieve the best moment in a video that matches a given sentence query. This task is challenging as it requires understanding the relationship between a video and a sentence, as well as the semantic meaning of both. TML methods using 2D temporal maps, which represent proposal features or scores on all moment proposals with the boundaries of start and end times on the m and n axes, have shown performance improvements by modeling moment proposals in relation to each other. The methods, however, are limited by the coarsely pre-defined fixed boundaries of target moments, which depend on the length of training videos and the amount of memory available. To overcome this limitation, we propose a boundary matching and refinement network (BMRN) that generates 2D boundary matching and refinement maps along with a proposal feature map to obtain the final proposal score map. Our BMRN adjusts the fixed boundaries of moment proposals with predicted center and length offsets from boundary refinement maps. In addition, we introduce the length-aware proposal-interactive feature map extraction that combines a cross-modal feature map and a similarity map between the predicted duration of the target moment and each moment proposal and then obtain the final proposal feature map through two-stream proposal interaction by applying for two-dimensional convolution and transformer layers to the combined feature map. We also improve the performance of BMRN with our cross-modal contrastive approach for TML. BMRN and BMRN-CCL outperform SoTA methods on Charades-STA and ActivityNet Captions datasets, outperforming state-of-the-art methods by a large margin. Through comprehensive ablation studies, we also show the effectiveness of component losses, modules for cross-modal interaction, proposal interaction, boundary matching and refinement, and cross-modal contrastive learning. Key words : Temporal moment localization, Video understaning, multi-modal learning, 2D-map proposal refinement, Cross-modal contrastive learning 비디오 의미 구간 탐지(Temporal moment localization, TML)는 주어진 문장의 의미에 맞는 비디오 구간을 찾는 것을 목표로 한다. 이 작업은 문장의 의미를 이해하고, 비디오 장면과 문장 간의 관계 성을 찾아야 하므로, 매우 어려운 과제에 속한다. 이를 위한 기존 방법론으로 y축을 시작 시간 x축을 종료 시간으로 하는 2D 시간적 후보 맵을 만들어서, 각 후보 구간의 점수를 도출하는 방식이다. 이 방법은 후보 구간들 간의 상호작용을 모델링함으로써 큰 성능 향상 을 보였다. 그러나 기존 방법의 한계점으로 입력된 비디오의 길이 또는 사용 가능한 컴퓨터 메모리 양에 따라 사전에 정의되고 경계 가 고정된 후보 구간을 이용하므로 정답 구간에 대해 정확한 탐지 를 할 수 없다. 이러한 한계점을 극복하고자, 구간 탐지 및 경계 보 정 네트워크(Boundary Matching and Refinement Network, BMRN)를 제안하였다. 이 네트워크는 최종 후보 구간 점수 맵을 얻 기 위해 2D 후보 구간 특징과 구간 매칭 및 후보 경계 보정 맵을 생성 한다. 후보 구간 보정 맵은 후보 구간의 중심 위치 및 길이를 보정하여 고정된 경계를 조정한다. 또한 크로스 어텐션을 활용하여 후보 구간 길이 스케일에 따른 2D 후보 특징 맵을 추출 하였고, 정 답 구간의 길이를 예측해 각 후보 구간과의 길이 유사성 맵을 만들 어 후보 구간에 바이어스를 주는 방법을 제안하였다. 그리고 후보 구간들 간의 상호작용을 위해 컨볼루션 레이어와 트랜스포머 레이 어를 도입해 보다 효과적인 상호작용 방법을 제시하였다. 또한 크로 스 모달 대조 학습을 통해 비디오와 문장 특징을 보다 정밀하게 연 관시킨 모델인 BMRN-CCL은 기존 BMRN의 성능을 높였다. 제안 한 BMRN-CCL 네트워크는 두 가지 벤치마크 데이터 셋 Charades-STA, ActivityNet Captions에서 기존 SoTA(State of the Art) 모델 대비 큰 마진으로 성능 향상을 보였다. 그리고 다양한 Ablation 실험 결과를 통해 각 손실 함수 및 모듈의 효과성을 입증 하였고, 정성적 실험 결과를 통해 제안한 방법이 2D 후보 점수 맵 이 정답 구간을 잘 추종하며 각 후보 구간의 경계 보정 또한 잘 되 고 있음을 확인할 수 있다. 주요단어(Keyword) : 비디오 의미 구간 탐지, 비디오 이해, 멀티 모 달 학습, 2D 후보 구간 보정, 크로스 모달 대조 학습

      • Cross-attention 기반의 멀티 모달 딥러닝을 이용한 의류 제품 수요 예측

        송인권 연세대학교 대학원 2023 국내석사

        RANK : 234271

        본 논문은 의류 제품의 트렌드를 나타내는 키워드 검색량, 패션쇼 이미지, 패션 트렌드 문서를 통해, 각각의 트렌드 데이터와 판매 데이터 간의 연관성을 반영하여 의류 제품의 수요를 예측하는 Cross-Attention 기반 GTM-Transformer 모델을 제안하고자 한다. 본 논문에서 제안하는 모델은 GTM-Transformer를 참고했으며, GTM-Transformer는 Attention 매커니즘을 활용하여 의류 제품의 속성과 키워드 검색량의 연관성을 반영하는 특징을 갖는다. 의류 제품의 트렌드와 판매 데이터 간의 연관성을 반영하기 위해서 키워드 검색량, 패션쇼 이미지, 패션 트렌드 문서를 Concat한 뒤, Attention 매커니즘을 통해 판매 데이터와 각각의 트렌드 데이터 간의 연관성을 도출했다. 성능 비교를 위해 대표적인 머신러닝 모델인 Linear Regression, Support Vector Machine, Decision Tree 모델과 제안하는 모델로 실험하여 비교했다. 또한, 키워드 검색량을 제외한 트렌드 데이터를 판매 데이터에 Concat하여 판매 데이터와의 연관성을 고려하지 않은 모델과의 비교 분석도 진행했다. 추가적으로, 시계열 형태의 판매 정보를 반영하여 성능을 비교했다. 분석 결과, 본 논문에서 제안하는 방법인 Cross-Attention 기반으로 각각의 트렌드 데이터와 판매 데이터 간 연관성을 반영하는 모델이 가장 우수한 성능을 보임을 확인했으며, 시계열 형태의 판매 정보를 반영했을 때 성능 향상을 보였다. 본 논문에서 제안하는 방법은 트렌드를 효과적으로 반영하여 수요 예측의 정확도를 향상시킬 것으로 기대한다.

      • 딥러닝을 활용한 오디오 자동 태깅

        이재환 명지대학교 대학원 2022 국내석사

        RANK : 234271

        오디오 자동 태깅이란 특정 오디오 데이터(예: 음성, 음악)에 연관된 정보를 담고 있는 태그의 포함 여부를 자동으로 추출, 분류하는 문제이다. 태그를 통해 오디오 데이터를 개별적으로 재생하지 않고도 어떤 특징, 내용을 담고 있는지 효과적으로 표현할 수 있어 개인 맞춤형 음악 추천, 동영상 검색 등을 위한 알고리즘에서 중요한 입력 중 하나로 활용하고 있다. 특히 최근에는 딥러닝을 활용해 오디오 데이터로부터 음향학적 특징을 추출한 후, 멀티-핫 벡터 형태의 태그로 분류하는 연구가 활발히 진행 중이다. 그렇지만 이러한 접근 방법은 태그로부터 추출 가능한 내재적 정보(예: ‘클래식-첼로’ 태그 간의 연관성)를 활용하지 않는다. 따라서 본 연구에서는 기존 딥러닝 기반의 오디오 자동 태깅 모델의 성능을 향상시키기 위하여 태그의 내재적 정보를 학습에 활용한 공동 임베딩 기법을 제안한다. 해당 기법은 기존의 태깅 모델에 적용할 수 있으므로 이미 잘 알려진 오디오 자동 태깅 모델인 SampleCNN, HarmonicCNN과 추가로 학습 가능한 주파수 대역 필터 활용 모델, 트랜스포머 인코더 활용 모델에 적용하였다. 실험을 통해 음악 자동 태깅 데이터 셋인 MTAT에서 ROC-AUC 0.9185, PR-AUC 0.5595를 기록하고 음향 이벤트 인식 데이터 셋인 DCASE2017에서 F1 Score 0.5341을 기록하였다. 이로써 공동 임베딩 기법이 기존 SOTA 모델의 성능을 4.5% 이상 향상시켜 태그의 내재적 정보가 태깅 모델 학습에 효과적이라는 것을 확인하였다. Audio Auto-tagging is a problem of automatically extracting and classifying whether a tag, which is a type of metadata containing information related to specific audio data (e.g., voice, music), is included. Tags express the characteristics and contents of audio data without having to play it individually. Thus, tag serves as one of the important inputs for personalized music recommendations and video searches. Recently, with the advance of artificial intelligence, automatically extracting and classifying audio data using deep learning has heavily researched. However, since this approach does not use semantic information(i.e., the association between “classical music” tag and “cello” tag) that can be extracted from tags. In this paper, therefore, we suggest a joint-embedding technique that leverages the semantic information of the tags to improve performance of existing audio auto-tagging models. Since this technique is applicable to conventional tagging models, it has been applied to well-known audio auto-tagging models such as SampleCNN and HarmonicCNN. Additionally we apply trainable frequency band-pass filters, and transformers. Through experiments, we show that our model has achieved ROC-AUC 0.9185 and PR-AUC 0.5595 with MTAT, music auto-tagging datasets, and F1 Score 0.5341 with DCASE2017, acoustic event recognition datasets. As a result, we has improved previous SOTA performance by more than 4.5%, and shows that using semantic information of the tags was effective in training auto-tagging model.

      • Music emotion recognition algorithm using themes

        이태헌 Graduate School, Yonsei University 2024 국내석사

        RANK : 234249

        Music Emotion Recognition(MER) 연구 분야는 오래 연구되어 왔음에도 현재까지 낮은 정확도를 보여주고 있다. 음악 구조의 복잡성과 느껴지는 감정의 주관성으로 인해 음악에서 감정을 인식하는 것은 어려운 문제이다. 본 논문에서는 Music Emotion Recognition(MER) 분야의 지속적인 도전과제에 대해, 음악 테마를 활용한 새로운 접근 방법을 제안한다. MER 연구는 음악의 복잡한 구조와 감정 인식의 주관성으로 인해 낮은 정확도의 문제에 직면해왔다. 이 연구는 음악의 테마, 즉 음악에서 전달하고자 하는 주제와 분위기, 그리고 주요한 멜로디의 반복과 변형을 탐지하여 MER의 정확도를 향상시키고자 한다. 연구에서는 멜로디와 관련된 음악적 특성들을 Self-Similarity Matrix(SSM)에 기반하여 분석하고, 이를 ResNet과 Bi-Directional Gated Recurrent Unit(Bi-GRU)을 결합한 모델의 입력으로 사용한다. 본 논문은 또한 MER의 성능을 강화하기 위해 CNN-RNN 모델과 멀티모달 네트워크의 적용을 탐구한다. 이러한 방법론을 통해, MER에서 음악 테마의 중요성과 효과성을 검증하고, MER의 정확도 향상을 위한 새로운 방법론을 제시한다. 이 연구는 널리 사용되는 공개 데이터셋인 Database for Emotional Analysis of Music(DEAM)을 활용하여 진행되었으며, valence RMSE 0.084, arousal RMSE 0.064로 나타나, 음악 테마 활용의 유효성을 입증한다. 이를 통해, MER 분야에서 음악 테마의 활용이 감정 인식의 정확도를 개선할 수 있는 유망한 방법임을 시사한다. Despite longstanding research in the field of Music Emotion Recognition (MER), it continues to exhibit low accuracy due to the complexity of music structure and the subjectivity of perceived emotions. This paper proposes a novel approach to address the persistent challenges in MER by utilizing music themes. MER has faced issues of low accuracy due to the intricate structure of music and the subjective nature of emotion recognition. This study aims to improve the accuracy of MER by detecting music themes, which include the intended themes, mood, and key repetitive and transformative melodies in music. The research analyzes music features related to melody based on the Self-Similarity Matrix (SSM) and utilizes them as inputs for a model combining ResNet and Bi-Directional Gated Recurrent Unit (Bi-GRU). Additionally, this paper explores the application of CNN-RNN models and multi-modal networks to enhance the performance of MER. Through these methodologies, the importance and effectiveness of music themes in MER are validated, and a new approach for improving the accuracy of MER is presented. Utilizing the widely-used public dataset, the Database for Emotional Analysis of Music (DEAM), the study demonstrates the effectiveness of using music themes, evidenced by the valence RMSE of 0.084 and arousal RMSE of 0.064. These results suggest that the utilization of music themes in MER is a promising method for improving the accuracy of emotion recognition (MER) regression problem.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼