사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공 지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A108639227
2023
Korean
Dialogue Dataset ; Online Community ; Chatbot ; Natural Language Generation ; t5 ; 대화 데이터셋 ; 온라인 커뮤니티 ; 챗봇 ; 자연어 생성 ; T5
KCI등재
학술저널
219-240(22쪽)
0
상세조회0
다운로드국문 초록 (Abstract)
사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공 지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구...
사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공 지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.
참고문헌 (Reference)
1 오종환 ; 장수연 ; 이준환, "한글 자음 및 모음 사용을 통해 드러나는 온라인에서의 정서 표현에 대한 탐색적 연구" 한국멀티미디어학회 17 (17): 866-878, 2014
2 송민채 ; 신경식, "한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구" 한국지능정보시스템학회 28 (28): 309-328, 2022
3 박혜성, "한국 뮤지컬 마니아 관객 활동의 문화 정치적 함의: 온라인 커뮤니티 활동을 중심으로" 사단법인 언론과 사회 25 (25): 37-96, 2017
4 유소연 ; 임규건, "텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로" 한국지능정보시스템학회 27 (27): 47-64, 2021
5 김태균, "크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도1533 판결을 중심으로 -" 법학연구소 11 (11): 273-304, 2022
6 강경필, "일상 대화 챗봇의 동향과 과제" 40 (40): 39-45, 2022
7 손건영, "일반상식을 적용한 KoBART 기반 대화 생성 모델" 1837-1839, 2022
8 김정우, "인터넷 커뮤니티에서 사용되는 말에 대한 연구-자전거 관련 커뮤니티를 중심으로-" 한국사회언어학회 17 (17): 109-133, 2009
9 김혜미 ; 이준웅, "인터넷 뉴스와 댓글의 뉴스 프레임 융합 효과 연구: 해석의 복잡성 및 태도의 극단성 분석을 중심으로" 한국언론학회 55 (55): 32-55, 2011
10 손세모돌, "인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계" 한국텍스트언어학회 15 : 169-198, 2003
1 오종환 ; 장수연 ; 이준환, "한글 자음 및 모음 사용을 통해 드러나는 온라인에서의 정서 표현에 대한 탐색적 연구" 한국멀티미디어학회 17 (17): 866-878, 2014
2 송민채 ; 신경식, "한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구" 한국지능정보시스템학회 28 (28): 309-328, 2022
3 박혜성, "한국 뮤지컬 마니아 관객 활동의 문화 정치적 함의: 온라인 커뮤니티 활동을 중심으로" 사단법인 언론과 사회 25 (25): 37-96, 2017
4 유소연 ; 임규건, "텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로" 한국지능정보시스템학회 27 (27): 47-64, 2021
5 김태균, "크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도1533 판결을 중심으로 -" 법학연구소 11 (11): 273-304, 2022
6 강경필, "일상 대화 챗봇의 동향과 과제" 40 (40): 39-45, 2022
7 손건영, "일반상식을 적용한 KoBART 기반 대화 생성 모델" 1837-1839, 2022
8 김정우, "인터넷 커뮤니티에서 사용되는 말에 대한 연구-자전거 관련 커뮤니티를 중심으로-" 한국사회언어학회 17 (17): 109-133, 2009
9 김혜미 ; 이준웅, "인터넷 뉴스와 댓글의 뉴스 프레임 융합 효과 연구: 해석의 복잡성 및 태도의 극단성 분석을 중심으로" 한국언론학회 55 (55): 32-55, 2011
10 손세모돌, "인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계" 한국텍스트언어학회 15 : 169-198, 2003
11 고윤석, "인공지능 학습용 데이터셋 구축안내서"
12 박도형, "온라인 커뮤니티 특성, 커뮤니티 멤버 특성, 개인 특성이 잠복관찰 활동에 미치는 영향:왜 사람들은 쓰지 않고 읽기만 하는가?" 한국인터넷정보학회 15 (15): 73-88, 2014
13 이세진 ; 이정교, "온라인 여성 커뮤니티에서의 이용자 간 상호작용과 사회연결망에 관한 연구" 사회과학연구원 38 (38): 47-71, 2012
14 김일환 ; 이도길, "신문 빅 데이터 기반의 단어 사용과 트렌드 분석: 신문의 명사 빈도 사용 패턴을 중심으로" 언어정보연구소 (22) : 41-62, 2016
15 강소영, "성별 대화 진행 방식 - 말 끼어들기(말 끼어들기 이후)를 중심으로 -" 이화어문학회 (56) : 115-150, 2022
16 한주희 ; 유진이 ; 이영훈, "산업공학 인식에 대한 온라인 커뮤니티 데이터 분석" 대한산업공학회 48 (48): 280-288, 2022
17 조우진 ; 이혁준, "사전학습 언어모델 기반의 한국어 질문-답변 데이터 증강 방법" 한국정보과학회 27 (27): 563-573, 2021
18 박일섭, "메신저 대화 자료 수집 및 말뭉치구축" 국립국어원 2019
19 차재국, "기독교 영시에 나타난 명사(名詞)어휘의 빈도수에 관한 연구" 1 (1): 81-102, 2010
20 주현덕 ; 박세니, "그들은 어떻게 다른가?: 연애관계와 연애태도에서의 성차와 집단 차이" 한국여성심리학회 10 (10): 573-601, 2005
21 김효정, "[2022 커뮤니티 보고서] 20대男 ‘에펨코리아’, 진보 20대女 ‘더쿠’"
22 Casas, J., "Trends &methods in chatbot evaluation" 280-286, 2020
23 Hwang, S, "Toward a Chatbot for Financial Sustainability" 13 (13): 3173-, 2021
24 Landis, J. R., "The measurement of observer agreement for categorical data" 33 : 159-174, 1977
25 Mihalcea, R., "Textrank: Bringing order into text" 404-411, 2004
26 손지영 ; 신용태, "TextRank 알고리즘을 이용한 음악 가사 요약 기법" 한국멀티미디어학회 21 (21): 45-50, 2018
27 Li, X., "Pchatbot: A Large-Scale Dataset for Personalized Chatbot" 2470-2477, 2020
28 Fleiss, J. L., "Measuring nominal scale agreement among many raters" 76 (76): 378-, 1971
29 Radford, A., "Language models are unsupervised multitask learners" 1 (1): 9-, 2019
30 Cho, W, "Kosp2e:Korean Speech to English Translation Corpus"
31 박규현, "KoGPT2를 이용한 쇼핑몰리뷰 생성기" 30 (30): 31-33, 2022
32 민경서, "KoBERT, KoGPT2를 이용한 이전 대화에서 추출한 문장 정보기반 감성 문장 생성" 1579-1581, 2022
33 손건영, "KoBERT 기반 일반상식추출 및 반영한 KoBART 기반 대화생성모델" 841-847, 2023
34 Lee.M, "Kiwi, Korean Intelligent Word Identifier"
35 Grootendorst, M., "KeyBERT: Minimal keyword extraction with BERT. Version v0.3.0" 2020
36 전영일, "KOSTAT 통계플러스 2022 봄호"
37 Park, H., "Hybrid CTC-attention network-based end-to-end speech recognition system for Korean language" 265-284, 2022
38 Raffel, C., "Exploring the limits of transfer learning with a unified text-to-text transformer" 21 (21): 5485-5551, 2020
39 Ram, A., "Conversational ai : The science behind the alexa prize" 2018
40 Ha, J. W., "ClovaCall:Korean goal-oriented dialog speech corpus for automatic speech recognition of contact centers" 2020
41 Youngsook Song, "Chatbot_data_for_Korean v1.0"
42 Lewis, M., "Bart : Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension" 2019
43 Park, C., "BTS: Back TranScription for speech-to-text post-processor using text-to-speechto-text" 106-116, 2021
44 Moon, J., "BEEP! Korean corpus of online news comments for toxic speech detection" 2020
45 Maroengsit, W., "A survey on evaluation methods for chatbots" 111-119, 2019
46 Ban, B., "A Survey on Awesome Korean NLP Datasets" 1615-1620, 2022
47 박일섭, "2021년 온라인 대화 자료 수집 및정제" 국립국어원 2021
셋톱박스 오디언스 타겟팅을 위한 세션 기반 개인화 추천 시스템 개발
프로세스 마이닝을 활용한 온라인 교육 오픈 플랫폼 내 학습 패턴 분석 방법 개발
동영상 안정화를 위한 옵티컬 플로우의 비지도 학습 방법
지형정보 기반 조난자 행동예측을 위한 마코프 의사결정과정 모형