RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • Zipf 법칙과 TV 드라마 대본의 고차 N-gram 분포

        김준식(Joon Shik Kim),이충연(Chung-Yeon Lee),장민수(Minsu Zhang),김경태(Kyoung-Tae Kim),남문곤(Mun-Gon Nam),남준희(Jun-Hee Nam) 한국지능시스템학회 2012 한국지능시스템학회 학술발표 논문집 Vol.22 No.1

        일반 문서는 빈도수가 높게 자주 사용되는 소수의 단어들과 적은 빈도로 쓰이는 다수의 단어들로 구성되며, 문서에 등장하는 단어들의 빈도수를 내림차순으로 정렬하면 멱법칙(power law)을 따르는 것으로 알려져 있다. 이렇게 지수분포를 따르는 현상을 Zipf law이라고 한다. Log-log 데이터 분포를 1차 선형 함수로 근사시키면 앞쪽의 작은 절대값의 음수 기울기 부분과 뒤쪽의 큰 절대값의 음수 기울기 부분으로 나뉘는 현상이 밝혀졌다. 특히 하나의 단어에 대한 빈도수 분포를 Unigram 분석이라고 한다. 본 논문에서는 Unigram 분석을 확장하여 연속된 다수의 단어의 빈도수를 살펴보는 N-gram 분석법을 적용함으로써 구 단위의 언어망 구조의 Zipf law의 유효성을 살펴보았다. N-gram 분석법을 TV 드라마 대본에 적용하여 구어체의 자연어 대사를 분석한 연구는 현재까지 없었다. TV 드라마 236편의 전체 영어 대본을 데이터로 사용하여 등장인물 여섯 명의 대사들에 대해서 Unigram, Bigram, Trigram의 분포를 비교하였다. 여섯 명의 Unigram 분석 결과 모두 Zipf law를 따름을 알 수 있었다. Bigram도 Zipf law를 따름을 알 수 있었다. 그러나 Trigram의 결과는 Zipf law와 다른 양상을 보였다. 즉 Log-log 데이터의 앞쪽의 음수 기울기의 절대값이 뒤쪽의 음수 기울기의 절대값보다 큰 값을 가졌으며 이는 알려진 Zipf law와 다른 결과이다. 주인공의 대사 모음과 비슷한 크기의 단어 종류와 단어 수를 가지는 무작위로 생성된 문서에 대해서 Unigram, Bigram, Trigram의 분포를 분석하였다. Unigram, Bigram, Trigram 분석결과 빈도수가 매우 적어서 자연어 대본의 결과와 다른 패턴을 보였다. 우연에 의한 fluctuation 효과로 생각된다. 본 연구 결과는 일상 구어체 자연어 대사의 경우 일반적인 문서와는 달리 Trigram에서 많이 사용되는 소수의 단어들과 적은 빈도로 쓰이는 대다수의 단어들로 이루어지는 더욱 강한 power law를 따름을 의미한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼