RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      한글 메신저 채팅의 크로스 텍스팅 탐지를 위한 저자 검증 모형 = Author Verification Model for Cross-texting Detection in Korean Messenger Chat

      한글로보기

      https://www.riss.kr/link?id=T17113953

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      인터넷과 IT 기술의 발달로, 짧은 길이의 텍스트 기반 의사소통이 음성 기반보다 훨씬 활발하게 이뤄지고 있다. 채팅 기반 커뮤니케이션은 사람들로 하여금 많은 양의 짧은 메시지를 여러 사람과 빠르게 주고받을 수 있게 하였고, 이는 새로운 사회적 문제를 발생시켰다. 크로스 텍스팅(Cross-texting)이 그 예 중 하나이다. 크로스 텍스팅은 여러 개의 동시 대화로 인해 텍스트가 실수로 의도하지 않은 수신자에게 잘못 전송되는 경우를 일컫는다. 이는 존대법이 발달된 언어에서 발생할 경우 심각한 문제가 될 수 있다. 텍스트 기반 커뮤니케이션이 더욱 활발해질수록 한국어와 같이 높임 표현이 발달된 언어에서는 크로스 텍스팅을 사전에 방지하는 일이 매우 중요할 수 있다.
      이 논문에서는 문체적 특성을 기반으로 두 문서의 저자가 동일한지를 여부를 판단하는 기존의 저자 검증 문제를 변형하여, 메신저 환경에서 작성된 채팅 텍스트에 대해 크로스 텍스팅을 탐지하는 모델을 제안한다. 동일한 사용자라도 상대방이 누구냐에 따라 태도를 달리한다는 점에 착안하여 사용자의 이전 채팅 내용으로 대화의 일관성을 모델링하고, 주어진 새로운 메시지에서도 이 일관성이 유지되고 있는가를 평가한다. 그러기 위해서는 한글 채팅 메시지의 특징을 고려하여 일관성을 모델링할 수 있는 특성을 설정해야 한다.
      이 논문에서는 두 가지 접근법을 제안한다. 첫 번째는 채팅 메시지에 쓰인 표현에서 높임 정도와 완성도를 평가하는 기준을 설정하여 대화에 나타난 태도의 일관성을 모델링하는 방법이다. 이는 명시적으로 평가 기준을 설정하고 사전 학습을 통해 만들어진 내부 평가 모델의 조합으로 구성된다. 두 번째는 채팅 메시지에 사용된 음절들의 동시 출현 관계를 기반으로 그래프를 구축하여 대화에 자주 쓰이는 패턴의 일관성을 모델링하는 방법이다. 이는 사전 학습 없이 오로지 주어진 채팅 메시지에 내재된 패턴을 포착하는 모델로 구성된다.
      모델의 탐지 성능을 평가하기 위해 실제 메신저 말뭉치를 토대로 크로스 텍스팅 메시지의 유형과 길이를 조절하여 탐지 난이도가 다른 크로스 텍스팅 데이터셋을 구축하였다. 실험 결과, 첫 번째 접근 방법은 비교적 작은 차원의 특성값 만으로 최고 95\%의 정확도로 크로스 텍스팅을 탐지했으며, 그 특성값의 분포를 통해 제안 모델이 실제 채팅 메시지의 일관성을 효과적으로 모델링했음을 확인할 수 있었다. 두 번째 접근 방법은 채팅 메시지에 드러난 태도의 변화가 크지 않은 경우, 다른 모델에 비해 안정적인 성능을 보였으며 최고 82\%의 정확도로 크로스 텍스팅을 탐지했다.
      번역하기

      인터넷과 IT 기술의 발달로, 짧은 길이의 텍스트 기반 의사소통이 음성 기반보다 훨씬 활발하게 이뤄지고 있다. 채팅 기반 커뮤니케이션은 사람들로 하여금 많은 양의 짧은 메시지를 여러 사...

      인터넷과 IT 기술의 발달로, 짧은 길이의 텍스트 기반 의사소통이 음성 기반보다 훨씬 활발하게 이뤄지고 있다. 채팅 기반 커뮤니케이션은 사람들로 하여금 많은 양의 짧은 메시지를 여러 사람과 빠르게 주고받을 수 있게 하였고, 이는 새로운 사회적 문제를 발생시켰다. 크로스 텍스팅(Cross-texting)이 그 예 중 하나이다. 크로스 텍스팅은 여러 개의 동시 대화로 인해 텍스트가 실수로 의도하지 않은 수신자에게 잘못 전송되는 경우를 일컫는다. 이는 존대법이 발달된 언어에서 발생할 경우 심각한 문제가 될 수 있다. 텍스트 기반 커뮤니케이션이 더욱 활발해질수록 한국어와 같이 높임 표현이 발달된 언어에서는 크로스 텍스팅을 사전에 방지하는 일이 매우 중요할 수 있다.
      이 논문에서는 문체적 특성을 기반으로 두 문서의 저자가 동일한지를 여부를 판단하는 기존의 저자 검증 문제를 변형하여, 메신저 환경에서 작성된 채팅 텍스트에 대해 크로스 텍스팅을 탐지하는 모델을 제안한다. 동일한 사용자라도 상대방이 누구냐에 따라 태도를 달리한다는 점에 착안하여 사용자의 이전 채팅 내용으로 대화의 일관성을 모델링하고, 주어진 새로운 메시지에서도 이 일관성이 유지되고 있는가를 평가한다. 그러기 위해서는 한글 채팅 메시지의 특징을 고려하여 일관성을 모델링할 수 있는 특성을 설정해야 한다.
      이 논문에서는 두 가지 접근법을 제안한다. 첫 번째는 채팅 메시지에 쓰인 표현에서 높임 정도와 완성도를 평가하는 기준을 설정하여 대화에 나타난 태도의 일관성을 모델링하는 방법이다. 이는 명시적으로 평가 기준을 설정하고 사전 학습을 통해 만들어진 내부 평가 모델의 조합으로 구성된다. 두 번째는 채팅 메시지에 사용된 음절들의 동시 출현 관계를 기반으로 그래프를 구축하여 대화에 자주 쓰이는 패턴의 일관성을 모델링하는 방법이다. 이는 사전 학습 없이 오로지 주어진 채팅 메시지에 내재된 패턴을 포착하는 모델로 구성된다.
      모델의 탐지 성능을 평가하기 위해 실제 메신저 말뭉치를 토대로 크로스 텍스팅 메시지의 유형과 길이를 조절하여 탐지 난이도가 다른 크로스 텍스팅 데이터셋을 구축하였다. 실험 결과, 첫 번째 접근 방법은 비교적 작은 차원의 특성값 만으로 최고 95\%의 정확도로 크로스 텍스팅을 탐지했으며, 그 특성값의 분포를 통해 제안 모델이 실제 채팅 메시지의 일관성을 효과적으로 모델링했음을 확인할 수 있었다. 두 번째 접근 방법은 채팅 메시지에 드러난 태도의 변화가 크지 않은 경우, 다른 모델에 비해 안정적인 성능을 보였으며 최고 82\%의 정확도로 크로스 텍스팅을 탐지했다.

      더보기

      목차 (Table of Contents)

      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 연구 목표 및 문제 정의 5
      • 1.3 논문 구성 6
      • 2. 배경지식 및 관련연구 7
      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 연구 목표 및 문제 정의 5
      • 1.3 논문 구성 6
      • 2. 배경지식 및 관련연구 7
      • 2.1 저자 검증 7
      • 2.2 채팅 텍스트 9
      • 2.3 외국어 온라인 텍스트를 대상으로한 저자 분석 연구 11
      • 2.4 한국어를 대상으로한 저자 분석 연구 13
      • 2.4.1 인문 · 사회학 분야에서의 저자 분석 13
      • 2.4.2 컴퓨터 공학 분야에서의 저자 분석 및 채팅 분석 15
      • 3. 문제 정형화 21
      • 3.1 사용자의 채팅 메세지의 일관성 정의 21
      • 3.2 한글 메신저 텍스트의 특징 23
      • 3.3 메신저 채팅 대화 세션 정형화 26
      • 3.4 접근 1: 명시적 특성 정의에 기반한 모델 27
      • 3.5 접근 2: 채팅 패턴을 포착하기 위한 모델 28
      • 4. 제안하는 메신저 텍스트 저자 검증 모델 31
      • 4.1 크로스 텍스팅 탐지를 위한 격식 특성 기반 사용자 검증 모델 31
      • 4.1.1 제안 모델 전체 개요 31
      • 4.1.2 내부 모델 1: 높임정도 분석 모델 32
      • 4.1.3 내부 모델 2: 완성도 분석 모델 37
      • 4.1.4 내부 모델 3: 특성 벡터 기반의 크로스 텍스팅 탐지 모델 41
      • 4.2 크로스 텍스팅 탐지를 위한 그래프 기반 사용자 검증 모델 43
      • 4.2.1 모델 구조 43
      • 4.2.2 메시지 모델링을 위한 그래프 구축 44
      • 4.2.3 그래프 기반 크로스 텍스팅 탐지 모델 45
      • 5. 크로스 텍스팅 탐지 실험 47
      • 5.1 학습 말뭉치 수집 47
      • 5.2 크로스 텍스팅 평가 데이터셋 구축 50
      • 5.3 비교 모델 52
      • 5.3.1 LSTM 53
      • 5.3.2 Sent2vec 53
      • 5.3.3 KoBERT 53
      • 5.4 E1 - 메신저 텍스트와 외부 말뭉치 결합된 조건 53
      • 5.5 E2 - 메신저 텍스트로만 구성된 조건 58
      • 5.6 E3, E4 - 동일 사용자의 실제 메신저 텍스트로 구성된 조건 60
      • 5.7 E5, E6 - 동일 사용자가 수정한 메신저 텍스트로 구성된 조건 63
      • 5.8 크로스 텍스팅 탐지 실험 평가 63
      • 5.8.1 모델별 성능 분석 63
      • 5.8.2 제안 모델의 일관성 평가 결과 분석 65
      • 5.8.3 타깃 메시지 개수별 성능 분석 74
      • 6. 결론 77
      • 부록 A. E3-E6 데이터셋의 실험 결과 87
      • A.1 E3 실험 결과 87
      • A.2 E4 실험 결과 88
      • A.3 E5 실험 결과 89
      • A.4 E6 실험 결과 90
      • 부록 B. 메신저 말뭉치 명세 91
      • B.1 메신저 말뭉치[1] 포맷 91
      • B.2 성별 및 연령별 메신저 대화 예시 92
      • 부록 C. 메신저 말뭉치 통계 95
      • C.1 대화 참여자 메타 정보 95
      • C.2 채팅 메시지 메타 정보 97
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼