RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      문맥 임베딩과 트랜스포머 모델의 효과적인 결합을 통한 텐서공간모델 기반 문서분류 = Tensor space model-based text classification through effective combination of contextual embedding and Transformer model

      한글로보기

      https://www.riss.kr/link?id=T17092818

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      최근 텍스트 데이터의 폭발적인 증가와 텍스트 생성모델의 발전으로 SNS 데이터 및 리뷰 데이터의 감성 분류 가짜 뉴스 탐지 등 자동문서분류(Text Classification)의 중요성이 더욱 부각되고 있다. 본 논문에서는 보다 정확한 문서분류를 위해 문맥을 고려한 단어 임베딩(Contextual Word Embedding) 기반 텐서공간모델(Tensor Space Model)과 Transformer 모델을 효과적으로 결합한 멀티모달 딥러닝 아키텍처를 제안한다.
      문서분류 성능을 높이기 위해서 문서분류 아키텍처는 의미, 문맥, 순서 정보를 동시에 고려하여 학습되어야 한다. 텐서공간모델은 하나의 문서를 단어-개념(Term-by-Concept) 행렬로 표현하는 것인데, 이는 다의어(Polysemy) 문제와 단어 순서 정보를 고려하지 않았다. 우리는 완벽한 문서분류를 지향하기 위해 텐서공간모델에 단어의 의미 정보와 문맥 정보를 포함시키면서 동시에 단어 순서 정보를 학습할 수 있는 2-채널 분류 아키텍처를 고안했다. 순서 정보를 학습하기 위해 자연어처리 기법에서 널리 사용되는 Transformer 모델을 활용했으며 결과적으로 우리가 제안한 아키텍처는 일종의 멀티 모달(Multimodal) 딥러닝 구조를 가진다. 우리는 6개의 영문 텍스트 데이터셋들을 활용하여 제안된 아키텍처의 성능 개선을 증명했다.
      번역하기

      최근 텍스트 데이터의 폭발적인 증가와 텍스트 생성모델의 발전으로 SNS 데이터 및 리뷰 데이터의 감성 분류 가짜 뉴스 탐지 등 자동문서분류(Text Classification)의 중요성이 더욱 부각되고 있다...

      최근 텍스트 데이터의 폭발적인 증가와 텍스트 생성모델의 발전으로 SNS 데이터 및 리뷰 데이터의 감성 분류 가짜 뉴스 탐지 등 자동문서분류(Text Classification)의 중요성이 더욱 부각되고 있다. 본 논문에서는 보다 정확한 문서분류를 위해 문맥을 고려한 단어 임베딩(Contextual Word Embedding) 기반 텐서공간모델(Tensor Space Model)과 Transformer 모델을 효과적으로 결합한 멀티모달 딥러닝 아키텍처를 제안한다.
      문서분류 성능을 높이기 위해서 문서분류 아키텍처는 의미, 문맥, 순서 정보를 동시에 고려하여 학습되어야 한다. 텐서공간모델은 하나의 문서를 단어-개념(Term-by-Concept) 행렬로 표현하는 것인데, 이는 다의어(Polysemy) 문제와 단어 순서 정보를 고려하지 않았다. 우리는 완벽한 문서분류를 지향하기 위해 텐서공간모델에 단어의 의미 정보와 문맥 정보를 포함시키면서 동시에 단어 순서 정보를 학습할 수 있는 2-채널 분류 아키텍처를 고안했다. 순서 정보를 학습하기 위해 자연어처리 기법에서 널리 사용되는 Transformer 모델을 활용했으며 결과적으로 우리가 제안한 아키텍처는 일종의 멀티 모달(Multimodal) 딥러닝 구조를 가진다. 우리는 6개의 영문 텍스트 데이터셋들을 활용하여 제안된 아키텍처의 성능 개선을 증명했다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      Recently, the explosive increase in the amount of text data and the rapid spread of text generative models has caused automatic text classification for information (e.g., social data, review data, and fake news) to become increasingly important. This paper proposes a multimodal deep learning architecture that effectively combines contextual word embedding and the Transformer model under the tensor space representation model to achieve more reliable text classification.
      To improve text classification performance, the classification model must be trained to simultaneously consider semantic, context, and sequence information. The tensor space representation model represents a single document as a term-by-concept matrix that contains the semantic information of words; however, it does not accommodate the polysemy problem or word sequence information. To achieve near-perfect document classification, we propose a two-channel classification architecture that can learn all three: semantic, context, and sequence information of words under a tensor space model. In our approach, the Transformer model is utilized to learn word sequence information; as a result, our proposed architecture produces a multimodal learning model for text classification. Using six textual datasets, we demonstrate the performance improvement of our proposed multimodal text classification architecture.
      번역하기

      Recently, the explosive increase in the amount of text data and the rapid spread of text generative models has caused automatic text classification for information (e.g., social data, review data, and fake news) to become increasingly important. This ...

      Recently, the explosive increase in the amount of text data and the rapid spread of text generative models has caused automatic text classification for information (e.g., social data, review data, and fake news) to become increasingly important. This paper proposes a multimodal deep learning architecture that effectively combines contextual word embedding and the Transformer model under the tensor space representation model to achieve more reliable text classification.
      To improve text classification performance, the classification model must be trained to simultaneously consider semantic, context, and sequence information. The tensor space representation model represents a single document as a term-by-concept matrix that contains the semantic information of words; however, it does not accommodate the polysemy problem or word sequence information. To achieve near-perfect document classification, we propose a two-channel classification architecture that can learn all three: semantic, context, and sequence information of words under a tensor space model. In our approach, the Transformer model is utilized to learn word sequence information; as a result, our proposed architecture produces a multimodal learning model for text classification. Using six textual datasets, we demonstrate the performance improvement of our proposed multimodal text classification architecture.

      더보기

      목차 (Table of Contents)

      • 제 1 장 서론 1
      • 제 1 절 연구의 배경 1
      • 제 2 절 논문의 구성 3
      • 제 2 장 배경 및 관련 연구 4
      • 제 1 절 배경 연구 4
      • 제 1 장 서론 1
      • 제 1 절 연구의 배경 1
      • 제 2 절 논문의 구성 3
      • 제 2 장 배경 및 관련 연구 4
      • 제 1 절 배경 연구 4
      • 1. 문맥을 고려한 임베딩 기법: ELMo, BERT 4
      • 2. 텐서공간모델 (Tensor Space Model) 4
      • 3. 어텐션 메커니즘 (Attention Mechanism) 5
      • 4. Transformer 6
      • 제 2 절 관련 연구 7
      • 제 3 장 제안 기법 9
      • 제 1 절 개요 9
      • 제 2 절 Context 채널의 생성 과정 11
      • 제 3 절 Sequence 채널의 생성 과정 13
      • 제 4 절 2-채널 분류 아키텍처 15
      • 제 4 장 실험 및 결과 19
      • 제 1 절 실험에 활용된 데이터셋 소개 19
      • 제 2 절 2-채널 분류 아키텍처 문서분류 실험 21
      • 1. 1-채널 분류 아키텍처 하이퍼파라미터 설정 21
      • 2. Transformer classifer 하이퍼파라미터 설정 22
      • 3. 2-채널 분류 아키텍처 하이퍼파라미터 설정 23
      • 4. 하이퍼파라미터 최적화 24
      • 제 3 절 2-채널 분류 아키텍처 문서분류 실험 결과 31
      • 제 4 절 Transformer block 적층 실험 34
      • 제 5 절 LLM 기반 문서분류 기법과의 성능 비교 37
      • 제 5 장 결론 39
      • 참고문헌 40
      • Abstract 44
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼