본 연구는 인공지능 모델이 사람의 의사소통 행위를 반영한 문장을 생성하도록 하기 위해서 한국어 일상 대화 데이터 중 하나인 국립국어원(2022)의 메신저 데이터를 분석하고 이를 바탕으로...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16839368
서울 : 경희대학교 대학원, 2023
학위논문(박사) -- 경희대학교 대학원 , 국어국문학과 국어학전공 , 2023.8
2023
한국어
상식적 인과 추론 ; 국립국어원(2022)의 메신저 데이터 ; 인공지능 모델 ; 초거대 언어 모델 ; 화자의 의도 ; 화행 ; 서술 ; 미래 의지 ; 냉소/유머 ; 제안 ; 감탄 ; 판정 의문 ; 설명 의문 ; 수사 의문 ; 인사 ; 호명 ; 자연어 이해 ; 자연어 생성 ; GPT-3.5-turbo ; PKO-T5 ; text-davinci-003 ; commonsense causal reasoning ; NIKL Messenger Corpus ; AI models ; large language models ; speaker’s intentions ; speech act ; statement ; future intention ; sarcasm/humor ; suggestion ; exclamation ; yes-no-question ; wh-question ; rhetorical question ; greeting ; address term ; natural language understanding ; natural language generation
서울
Enhancing AI’s Commonsense Reasoning in Conversations through Natural Language Generation
xi, 144 p. : 삽화, 도표 ; 26 cm
경희대학교 논문은 저작권에 의해 보호받습니다.
지도교수: 김양진
참고문헌: p. 126-134
I804:11006-200000689423
0
상세조회0
다운로드본 연구는 인공지능 모델이 사람의 의사소통 행위를 반영한 문장을 생성하도록 하기 위해서 한국어 일상 대화 데이터 중 하나인 국립국어원(2022)의 메신저 데이터를 분석하고 이를 바탕으로...
본 연구는 인공지능 모델이 사람의 의사소통 행위를 반영한 문장을 생성하도록 하기 위해서 한국어 일상 대화 데이터 중 하나인 국립국어원(2022)의 메신저 데이터를 분석하고 이를 바탕으로 인공지능 언어 모델이 화행 주석을 반영한 문장을 생성하는 방안을 모색했다. 문장 생성에서의 추론 능력을 파악하기 위해서 단어를 주고 문장을 생성하는 모델과 화자의 의도에 해당하는 화행을 주고 문장을 생성하는 모델 그리고 이를 통합하여 10개의 문장을 생성하는 모델 등을 통해 성공적으로 다양한 문장을 생성해 내는지 확인하였다.
2장에서는 사람이 의도를 표현하는 방식의 특성을 이해한 후, 인공지능 모델의 문장 생성 과정에 적용하기 위해서 메신저 데이터의 참여자 정보와 메신저 내용 사이의 관련성을 분석했다. 메신저 데이터에서는 참여자들의 친밀성 정도를 측정하기 위해 연인 및 부모, 자녀 관계와 같이 매우 친밀한 관계와 부부, 형제자매, 친구, 온라인 커뮤니티에서 만난 사이와 같이 상대적으로 덜 친밀한 관계를 구분했다. 이를 통해 친밀한 관계와 그렇지 않은 관계에서 사용 가능한 부적절한 표현의 종류와 빈도를 분석했다.
3장에서는 메신저 데이터에서 개념어 집합을 추출하고 GPT-3.5-turbo 모델을 사용하여 예비 주석을 한 후 중복되는 표지 등을 통합하고 문법 표지, 맥락, 물음표나 느낌표, 이모티콘, 인칭 등을 고려하여 분류하였다. 화행 분류의 최종 범주는 ‘서술, 미래 의지, 냉소/유머, 제안, 감탄, 판정 의문, 설명 의문, 수사 의문, 인사, 호명’으로 구분하였다. 모델을 통해서 자동으로 범주를 구분하는 실험 결과에서는 RoBERTa-base 모델이 정확도와 micro f1 점수가 모두 86.50이고 RoBERTa-large는 조금 더 점수가 높아서 86.88이었다.
4장에서는 GPT-3.5-turbo 모델과 PKO-T5-large, text-davinci-003 모델을 활용하여 문장을 생성하였고, 생성된 문장의 오류를 분석했다. GPT-3.5-turbo 모델에서는 문장의 길이와 원본 메신저 데이터의 문장 길이 사이에 유의미한 차이를 발견하지 못하였으며, 오류는 행위주성이 없는 단어에 행위주성을 부여한 문장과 의미적 모호성이 나타나는 문장 등이 나타났다. 또한, PKO-T5-large 모델과 text-davinci-003 모델을 이용하여 화행 주석을 적용하여 다양한 문장을 생성하는 실험을 수행했다. PKO-T5-large 모델에서 생성된 문장은 메신저 데이터의 문장과 어절 길이에서 유의미한 차이가 나타났다. text-davinci-003 모델은 특히 평서문에서 다양한 문장을 생성하는 데 성공하였으나, 호명이나 인사 화행과 같은 경우는 긴 문장을 만들어 내지 못했다. 이는 모델의 문제라기보다는 실제 언어 생활을 반영한 것으로 보인다. 생성된 문장의 어절 길이와 메신저 데이터의 어절 길이 사이에도 유의미한 차이가 있었다. 3음절 이상을 생성하였기 때문에 1어절과 2어절 문장은 찾을 수 없었고 또한 다양한 문장을 생성하였기 때문에 유의미하게 문장 길이가 길어진 것을 볼 수 있었다. 오류 분석에서는 동음이의어를 다른 의미로 사용하는 경우와 냉소/유머 화행에서 비난적인 문장이 생성되는 것이 주요한 문제로 나타났다.
이 연구는 사람의 의사 소통 행위를 기반으로 한 인공지능 모델의 대화 생성 능력을 탐색하고자 했다. 거대 언어 모델을 통해 화행을 반영한 문장을 생성하고 오류 분석을 통해 개선 방향을 제시했다는 점에 본 논문의 의의가 있다.
다국어 초록 (Multilingual Abstract)
This research analyzed the NIKL Messenger Corpus from the National Institute of Korean Language (2022) and generated sentences that reflect speech act annotations using large language models. To comprehend the inferential capacity in sentence creation...
This research analyzed the NIKL Messenger Corpus from the National Institute of Korean Language (2022) and generated sentences that reflect speech act annotations using large language models. To comprehend the inferential capacity in sentence creation, models that generate sentences by giving words, models that generate sentences by giving speech acts corresponding to the speaker’s intention, and integrated models that generate more than ten sentences were examined for their ability to successfully generate diverse sentences.
The main content of each chapter is as follows: In Chapter 2, after understanding the characteristics of how humans express intentions, the relevance between participant information and the content of messenger data was analyzed to apply to the sentence generation process of the AI model. In the messenger data, relations were differentiated, such as extremely intimate relationships like couples and parent-child relations, and comparatively less intimate relationships, like spouses, siblings, friends, and online community acquaintances, to measure the degree of intimacy among participants. Through this, the types and frequency of inappropriate expressions available in intimate relationships and non-intimate relationships were analyzed.
In Chapter 3, After extracted a set of conceptual terms from the messenger data, I preliminarily annotated them using the GPT-3.5-turbo model, consolidated overlapping markers, and classified them by considering grammatical markers, context, question marks or exclamation marks, emoticons, and grammatical person. The final classification categories were: statement, future intention, sarcasm/humor, suggestion, exclamation, yes-no-question, wh-question, rhetorical question, greeting, and address term. In the experimental results of the model’s automatic categorization, the RoBERTa-base model achieved an accuracy and micro f1 score of 86.50, while RoBERTa-large achieved a slightly higher score of 86.88.
In Chapter 4, I generated sentences using the GPT3.5 Turbo, PKO-T5-large, and text-davinci-003 models, and then analyzed the errors within the generated sentences. The GPT3.5 Turbo model showed no significant differences in sentence length compared to the original messenger data. However, errors were uncovered in sentences that mistakenly assigned agentivity to non-agentive words and in sentences that exhibited semantic ambiguity. Experiments were also conducted to generate a diversity of sentences by applying speech act annotations to the PKO-T5-large and text-davinci-003 models. When compared to the messenger data, it was observed that sentences generated from the PKO-T5-large model showed a significant difference in phrase length. The text-davinci-003 model was particularly adept at generating diverse sentences in the Statement speech act, but it failed to generate long sentences in scenarios such as address term and greeting. This seemed more reflective of actual language use rather than an issue with the model. There were also significant differences between the phrase length of generated sentences and the phrase length of the messenger data. As generation was limited to phrases of three or more syllables, single and two-syllable sentences were not found, and the push to generate diverse sentences noticeably extended the length of sentences. Error analysis revealed the misuse of homonyms in different contexts and the generation of critical sentences in sarcastic/humorous speech acts as the primary issues.
This research aimed to explore the conversational generation ability of AI models based on human communicative behavior. The significance of this paper lies in presenting directions for improvements through error analysis after generating sentences using artificial intelligence language models, as revealed by the experiment results.
목차 (Table of Contents)