최근 텍스트 데이터의 폭발적인 증가와 텍스트 생성모델의 발전으로 SNS 데이터 및 리뷰 데이터의 감성 분류 가짜 뉴스 탐지 등 자동문서분류(Text Classification)의 중요성이 더욱 부각되고 있다...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17092818
서울 : 서울시립대학교 일반대학원, 2024
학위논문(석사) -- 서울시립대학교 일반대학원 , 전자전기컴퓨터공학과 , 2024. 8
2024
한국어
서울
iv, 45 p. ; 26 cm
지도교수: 김한준
I804:11035-000000035546
0
상세조회0
다운로드최근 텍스트 데이터의 폭발적인 증가와 텍스트 생성모델의 발전으로 SNS 데이터 및 리뷰 데이터의 감성 분류 가짜 뉴스 탐지 등 자동문서분류(Text Classification)의 중요성이 더욱 부각되고 있다...
최근 텍스트 데이터의 폭발적인 증가와 텍스트 생성모델의 발전으로 SNS 데이터 및 리뷰 데이터의 감성 분류 가짜 뉴스 탐지 등 자동문서분류(Text Classification)의 중요성이 더욱 부각되고 있다. 본 논문에서는 보다 정확한 문서분류를 위해 문맥을 고려한 단어 임베딩(Contextual Word Embedding) 기반 텐서공간모델(Tensor Space Model)과 Transformer 모델을 효과적으로 결합한 멀티모달 딥러닝 아키텍처를 제안한다.
문서분류 성능을 높이기 위해서 문서분류 아키텍처는 의미, 문맥, 순서 정보를 동시에 고려하여 학습되어야 한다. 텐서공간모델은 하나의 문서를 단어-개념(Term-by-Concept) 행렬로 표현하는 것인데, 이는 다의어(Polysemy) 문제와 단어 순서 정보를 고려하지 않았다. 우리는 완벽한 문서분류를 지향하기 위해 텐서공간모델에 단어의 의미 정보와 문맥 정보를 포함시키면서 동시에 단어 순서 정보를 학습할 수 있는 2-채널 분류 아키텍처를 고안했다. 순서 정보를 학습하기 위해 자연어처리 기법에서 널리 사용되는 Transformer 모델을 활용했으며 결과적으로 우리가 제안한 아키텍처는 일종의 멀티 모달(Multimodal) 딥러닝 구조를 가진다. 우리는 6개의 영문 텍스트 데이터셋들을 활용하여 제안된 아키텍처의 성능 개선을 증명했다.
다국어 초록 (Multilingual Abstract)
Recently, the explosive increase in the amount of text data and the rapid spread of text generative models has caused automatic text classification for information (e.g., social data, review data, and fake news) to become increasingly important. This ...
Recently, the explosive increase in the amount of text data and the rapid spread of text generative models has caused automatic text classification for information (e.g., social data, review data, and fake news) to become increasingly important. This paper proposes a multimodal deep learning architecture that effectively combines contextual word embedding and the Transformer model under the tensor space representation model to achieve more reliable text classification.
To improve text classification performance, the classification model must be trained to simultaneously consider semantic, context, and sequence information. The tensor space representation model represents a single document as a term-by-concept matrix that contains the semantic information of words; however, it does not accommodate the polysemy problem or word sequence information. To achieve near-perfect document classification, we propose a two-channel classification architecture that can learn all three: semantic, context, and sequence information of words under a tensor space model. In our approach, the Transformer model is utilized to learn word sequence information; as a result, our proposed architecture produces a multimodal learning model for text classification. Using six textual datasets, we demonstrate the performance improvement of our proposed multimodal text classification architecture.
목차 (Table of Contents)