RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 = KOMUChat: Korean Online Community Dialogue Dataset for AI Learning

      한글로보기

      https://www.riss.kr/link?id=A108639227

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공 지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.
      번역하기

      사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공 지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구...

      사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공 지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

      더보기

      참고문헌 (Reference)

      1 오종환 ; 장수연 ; 이준환, "한글 자음 및 모음 사용을 통해 드러나는 온라인에서의 정서 표현에 대한 탐색적 연구" 한국멀티미디어학회 17 (17): 866-878, 2014

      2 송민채 ; 신경식, "한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구" 한국지능정보시스템학회 28 (28): 309-328, 2022

      3 박혜성, "한국 뮤지컬 마니아 관객 활동의 문화 정치적 함의: 온라인 커뮤니티 활동을 중심으로" 사단법인 언론과 사회 25 (25): 37-96, 2017

      4 유소연 ; 임규건, "텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로" 한국지능정보시스템학회 27 (27): 47-64, 2021

      5 김태균, "크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도1533 판결을 중심으로 -" 법학연구소 11 (11): 273-304, 2022

      6 강경필, "일상 대화 챗봇의 동향과 과제" 40 (40): 39-45, 2022

      7 손건영, "일반상식을 적용한 KoBART 기반 대화 생성 모델" 1837-1839, 2022

      8 김정우, "인터넷 커뮤니티에서 사용되는 말에 대한 연구-자전거 관련 커뮤니티를 중심으로-" 한국사회언어학회 17 (17): 109-133, 2009

      9 김혜미 ; 이준웅, "인터넷 뉴스와 댓글의 뉴스 프레임 융합 효과 연구: 해석의 복잡성 및 태도의 극단성 분석을 중심으로" 한국언론학회 55 (55): 32-55, 2011

      10 손세모돌, "인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계" 한국텍스트언어학회 15 : 169-198, 2003

      1 오종환 ; 장수연 ; 이준환, "한글 자음 및 모음 사용을 통해 드러나는 온라인에서의 정서 표현에 대한 탐색적 연구" 한국멀티미디어학회 17 (17): 866-878, 2014

      2 송민채 ; 신경식, "한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구" 한국지능정보시스템학회 28 (28): 309-328, 2022

      3 박혜성, "한국 뮤지컬 마니아 관객 활동의 문화 정치적 함의: 온라인 커뮤니티 활동을 중심으로" 사단법인 언론과 사회 25 (25): 37-96, 2017

      4 유소연 ; 임규건, "텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로" 한국지능정보시스템학회 27 (27): 47-64, 2021

      5 김태균, "크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도1533 판결을 중심으로 -" 법학연구소 11 (11): 273-304, 2022

      6 강경필, "일상 대화 챗봇의 동향과 과제" 40 (40): 39-45, 2022

      7 손건영, "일반상식을 적용한 KoBART 기반 대화 생성 모델" 1837-1839, 2022

      8 김정우, "인터넷 커뮤니티에서 사용되는 말에 대한 연구-자전거 관련 커뮤니티를 중심으로-" 한국사회언어학회 17 (17): 109-133, 2009

      9 김혜미 ; 이준웅, "인터넷 뉴스와 댓글의 뉴스 프레임 융합 효과 연구: 해석의 복잡성 및 태도의 극단성 분석을 중심으로" 한국언론학회 55 (55): 32-55, 2011

      10 손세모돌, "인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계" 한국텍스트언어학회 15 : 169-198, 2003

      11 고윤석, "인공지능 학습용 데이터셋 구축안내서"

      12 박도형, "온라인 커뮤니티 특성, 커뮤니티 멤버 특성, 개인 특성이 잠복관찰 활동에 미치는 영향:왜 사람들은 쓰지 않고 읽기만 하는가?" 한국인터넷정보학회 15 (15): 73-88, 2014

      13 이세진 ; 이정교, "온라인 여성 커뮤니티에서의 이용자 간 상호작용과 사회연결망에 관한 연구" 사회과학연구원 38 (38): 47-71, 2012

      14 김일환 ; 이도길, "신문 빅 데이터 기반의 단어 사용과 트렌드 분석: 신문의 명사 빈도 사용 패턴을 중심으로" 언어정보연구소 (22) : 41-62, 2016

      15 강소영, "성별 대화 진행 방식 - 말 끼어들기(말 끼어들기 이후)를 중심으로 -" 이화어문학회 (56) : 115-150, 2022

      16 한주희 ; 유진이 ; 이영훈, "산업공학 인식에 대한 온라인 커뮤니티 데이터 분석" 대한산업공학회 48 (48): 280-288, 2022

      17 조우진 ; 이혁준, "사전학습 언어모델 기반의 한국어 질문-답변 데이터 증강 방법" 한국정보과학회 27 (27): 563-573, 2021

      18 박일섭, "메신저 대화 자료 수집 및 말뭉치구축" 국립국어원 2019

      19 차재국, "기독교 영시에 나타난 명사(名詞)어휘의 빈도수에 관한 연구" 1 (1): 81-102, 2010

      20 주현덕 ; 박세니, "그들은 어떻게 다른가?: 연애관계와 연애태도에서의 성차와 집단 차이" 한국여성심리학회 10 (10): 573-601, 2005

      21 김효정, "[2022 커뮤니티 보고서] 20대男 ‘에펨코리아’, 진보 20대女 ‘더쿠’"

      22 Casas, J., "Trends &methods in chatbot evaluation" 280-286, 2020

      23 Hwang, S, "Toward a Chatbot for Financial Sustainability" 13 (13): 3173-, 2021

      24 Landis, J. R., "The measurement of observer agreement for categorical data" 33 : 159-174, 1977

      25 Mihalcea, R., "Textrank: Bringing order into text" 404-411, 2004

      26 손지영 ; 신용태, "TextRank 알고리즘을 이용한 음악 가사 요약 기법" 한국멀티미디어학회 21 (21): 45-50, 2018

      27 Li, X., "Pchatbot: A Large-Scale Dataset for Personalized Chatbot" 2470-2477, 2020

      28 Fleiss, J. L., "Measuring nominal scale agreement among many raters" 76 (76): 378-, 1971

      29 Radford, A., "Language models are unsupervised multitask learners" 1 (1): 9-, 2019

      30 Cho, W, "Kosp2e:Korean Speech to English Translation Corpus"

      31 박규현, "KoGPT2를 이용한 쇼핑몰리뷰 생성기" 30 (30): 31-33, 2022

      32 민경서, "KoBERT, KoGPT2를 이용한 이전 대화에서 추출한 문장 정보기반 감성 문장 생성" 1579-1581, 2022

      33 손건영, "KoBERT 기반 일반상식추출 및 반영한 KoBART 기반 대화생성모델" 841-847, 2023

      34 Lee.M, "Kiwi, Korean Intelligent Word Identifier"

      35 Grootendorst, M., "KeyBERT: Minimal keyword extraction with BERT. Version v0.3.0" 2020

      36 전영일, "KOSTAT 통계플러스 2022 봄호"

      37 Park, H., "Hybrid CTC-attention network-based end-to-end speech recognition system for Korean language" 265-284, 2022

      38 Raffel, C., "Exploring the limits of transfer learning with a unified text-to-text transformer" 21 (21): 5485-5551, 2020

      39 Ram, A., "Conversational ai : The science behind the alexa prize" 2018

      40 Ha, J. W., "ClovaCall:Korean goal-oriented dialog speech corpus for automatic speech recognition of contact centers" 2020

      41 Youngsook Song, "Chatbot_data_for_Korean v1.0"

      42 Lewis, M., "Bart : Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension" 2019

      43 Park, C., "BTS: Back TranScription for speech-to-text post-processor using text-to-speechto-text" 106-116, 2021

      44 Moon, J., "BEEP! Korean corpus of online news comments for toxic speech detection" 2020

      45 Maroengsit, W., "A survey on evaluation methods for chatbots" 111-119, 2019

      46 Ban, B., "A Survey on Awesome Korean NLP Datasets" 1615-1620, 2022

      47 박일섭, "2021년 온라인 대화 자료 수집 및정제" 국립국어원 2021

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼