자연어 처리(NLP)는 인공 지능 분야에서 가장 잘 연구되었지만 도전적인 학문 중 하나입니다. 최근 몇 년 동안 NLP의 전례 없는 발전이 도입되어 감성 분석을 포함한 많은 NLP 하위 작업의 개선...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16623246
서울: 동국대학교 일반대학원, 2023
학위논문(석사) -- 동국대학교 일반대학원 , 컴퓨터공학과 , 2023. 2
2023
영어
006.35 판사항(22)
서울
PhoBERT 기반 심층 분류기 및 앙상블 학습을 통한 베트남어 텍스트의 감정 분석
116 p.: 일부채색삽도, 도표; 26 cm.
동국대학교 논문은 저작권에 의해 보호받습니다
지도교수: 김준태
참고문헌: p. 102-109
I804:11020-000000085480
0
상세조회0
다운로드자연어 처리(NLP)는 인공 지능 분야에서 가장 잘 연구되었지만 도전적인 학문 중 하나입니다. 최근 몇 년 동안 NLP의 전례 없는 발전이 도입되어 감성 분석을 포함한 많은 NLP 하위 작업의 개선...
자연어 처리(NLP)는 인공 지능 분야에서 가장 잘 연구되었지만 도전적인 학문 중 하나입니다. 최근 몇 년 동안 NLP의 전례 없는 발전이 도입되어 감성 분석을 포함한 많은 NLP 하위 작업의 개선을 위한 새로운 가능성이 가능해졌습니다. 대규모 모델의 도입으로 이전에는 Computer Vision 전용으로 예약된 접근 방식이 이제 BERT 및 GPT와 같은 모델을 사용하여 NLP에 적용할 수 있습니다. 이러한 인기 있는 접근 방식 중 하나는 모델이 하나 또는 여러 언어의 일반적인 구문 기능을 이해하기 위해 대규모 코퍼스에서 사전 훈련된 다음 추가 다운스트림 특정 작업을 위해 미세 조정되는 Transfer Learning입니다. 포괄적인 데이터 세트 및 강력한 하드웨어와 함께 최첨단 결과를 생성하는 많은 창의적인 아키텍처와 정교한 미세 조정 기술을 보아왔습니다. 보다 구체적으로, 베트남어에 대해 사전 훈련된 최초의 공개 대규모 단일 언어 모델인 PhoBERT는 많은 베트남어 특정 작업을 해결하기 위한 기준 모델로 사용되었으며 다음과 같은 여러 작업에서 다국어 BERT 모델보다 더 나은 결과를 생성하는 것으로 입증되었습니다. 품사 태깅, 종속성 구문 분석, 명명된 엔터티 인식, 텍스트 분류, 자연어 추론 등.
본 연구에서는 베트남어 감성분석 과제에서 전이학습의 적용을 탐구한다. 베트남어용 BERT의 최첨단 사전 훈련 버전인 PhoBERT를 기준으로 여러 파이프라인으로 실험을 수행하여 모델을 미세 조정합니다. 저는 기본 PhoBERT를 3개의 심층 신경망 아키텍처인 LSTM(장기 기억 장치), RCNN(재귀 컨볼루션 신경망) 및 TextCNN과 결합합니다. 베트남어의 몇 가지 고유한 기능을 인식하고 베트남어 원어민으로서의 통찰력을 활용하고 일부 언어별 데이터 증강 기술을 배포하여 모델의 성능을 더욱 향상시킵니다. 또한 PhoBERT의 계층 선택을 탐색하고 앙상블 학습을 사용하여 고분산 문제를 완화하여 PhoBERT의 일부 약점을 해결합니다. NTC-SV, UIT-VSFC 및 UIT-VSMEC의 세 가지 벤치마크 데이터 세트를 사용하여 내 모델의 성능을 평가합니다. 각 데이터 세트에 대해 고유한 미세 조정 파이프라인으로 다국어 BERT 또는 단일 언어 PhoBERT를 활용하는 기존 구현과 비교를 그립니다.
연구의 주요 기여는 다음과 같이 요약된다.
• 감성 분석을 위해 사전 훈련된 PhoBERT를 미세 조정하는 효과적인 파이프라인을 제안합니다. 파이프라인에는 다음이 포함됩니다: (1) 도메인 지식을 활용하여 베트남어에 맞게 조정된 데이터 증대 프로세스 설계, (2) PhoBERT 모델의 여러 변환기 레이어의 기능을 사용하여 데이터의 보다 포괄적인 표현 생성, (3) 다음을 위해 앙상블 학습 사용 PhoBERT의 높은 분산 특성을 완화하고 (4) 딥 러닝 모델의 힘을 활용하여 분류를 수행합니다.
• 의미 있는 방식으로 새로운 교육 샘플을 생성하고, 미세 조정 프로세스의 효율성을 개선하고, 자원이 부족한 언어인 베트남어 문제를 해결하기 위해 언어별 데이터 증대에 대한 접근 방식을 소개합니다. 훈련 샘플 크기 또는 극단적인 클래스 불균형.
• 나는 클래스 수와 데이터 분포가 다른 세 가지 데이터 세트에 대해 제안한 방법의 모든 측면의 효율성을 평가하기 위해 여러 실험을 수행합니다. 모든 데이터 세트에 대해 내 모델은 기존 방법과 비교하여 경쟁력 있는 결과를 생성합니다. 내 연구 결과에 따르면 파이프라인을 미세 조정하여 도메인별 지식을 성공적으로 활용하여 베트남 언어의 고유한 특성에 맞는 아키텍처와 프로세스를 실현할 수 있었습니다. 내 실험의 결과는 또한 내가 제안한 파이프라인을 일반화하고 베트남 NLP의 다른 많은 하위 도메인에 적용하여 향후 연구에서 더 높은 성능을 달성할 수 있음을 시사합니다.
다국어 초록 (Multilingual Abstract)
Natural Language Processing (NLP) is one of the most well-studied yet challenging disciplines in the field of Artificial Intelligence. In recent years, unprecedented advancements in NLP have been introduced, enabling new possibilities for improvements...
Natural Language Processing (NLP) is one of the most well-studied yet challenging disciplines in the field of Artificial Intelligence. In recent years, unprecedented advancements in NLP have been introduced, enabling new possibilities for improvements in many NLP subtasks including Sentiment Analysis. With the introduction of large-scale models, approaches that were formerly reserved only for Computer Vision are now applicable in NLP with models such as BERT and GPT. One such popular approach is Transfer Learning, where a model is pretrained on a large corpus to understand general syntactical features of one or multiple languages, and then fine-tuned for further down-steam specific tasks. Along with comprehensive datasets and powerful hardware, we have seen many creative architectures and sophisticated fine-tuning techniques that produce state-of-the-art results. More specifically, PhoBERT, the first public large-scale monolingual language model pre-trained for Vietnamese, has been used as the baseline model to solve many Vietnamese language-specific tasks, and proven to produce better results than multilingual BERT models in several tasks such as part-of-speech tagging, dependency parsing, named entity recognition, text classification, natural language inferencing etc.
In this study, I explore the application of transfer learning in the task of Sentiment Analysis for Vietnamese language. Using PhoBERT, the state-of-the-art pretrained version of BERT for Vietnamese as the baseline, I conduct experiments with multiple pipelines to fine-tune the model. I combine the baseline PhoBERT with three deep neural networks architectures: long short-term memory (LSTM), recurrent convolutional neural networks (RCNN) and TextCNN. Recognizing some unique features of the Vietnamese language, I leverage my insights as a native Vietnamese speaker and deploy some language-specific data augmentation techniques to further improve the performance of my models. I also address some of PhoBERT’s weaknesses by exploring PhoBERT’s layer selection as well as employing ensemble learning to mitigate high variance issues. I evaluate the performance of my models using three benchmark datasets: NTC-SV, UIT-VSFC and UIT-VSMEC. For each dataset, I draw comparisons to existing implementations that also leverage either multilingual BERT or monolingual PhoBERT with their own unique fine-tuning pipelines.
The key contributions of my study are summarized as follows.
• I propose an effective pipeline to fine-tune pre-trained PhoBERT for Sentiment Analysis. The pipeline includes: (1) leveraging domain knowledge to design a data augmentation process tailored for the Vietnamese language, (2) using features from multiple transformer layers of PhoBERT model to yield more comprehensive representations of the data , (3) employ ensemble learning to mitigate PhoBERT’s high variance nature, and (4) harnessing the power of deep learning models to perform classification.
• I introduce an approach to language-specific data augmentation to generate new training samples in a meaningful manner, help improve the efficiency of the fine-tuning process, and combat the problems of Vietnamese – a low-resource language – such as overfitting on small training sample size, or extreme class imbalance.
• I conducted multiple experiments to evaluate the effectiveness of every aspect of my proposed method on three different datasets with distinct number of classes and data distributions. For all datasets, my models produce competitive results in comparison to existing methods. My findings indicate that, with my fine-tuning pipeline, I was able to successfully leverage domain-specific knowledge to realize architectures and processes tailored to the unique characteristics of Vietnamese language. The results of my experiments also suggest that my proposed pipeline can be generalized and applied in many other subdomains of Vietnamese NLP to achieve higher performance in future research.
목차 (Table of Contents)