RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 자료 빈약성을 해소하기 위한 말뭉치 크기의 예측

        양단희(Dan-Hee Yang),임수종(Su-Jong Leem),송만석(Mansuk Song) 한국정보과학회 1999 정보과학회논문지(B) Vol.26 No.4

        대량의 말뭉치(corpus)로부터 구문 정보나 의미 정보를 컴퓨터를 사용하여 자동으로 발췌하려는 연구가 활발하다. 그러나 실용적인 자연어처리 시스템이 되기 위해 필요한 망라성(coverage)과 견고성(robustness)을 갖기 위해 어느 정도 규모의 말뭉치가 필요한지에 대한 연구는 극히 미비하다. 본 연구는 '우리말 큰사전' 상의 주요 4 가지 품사에 속하는 단어들을 중심으로 상이 단어(different words) 수와 말뭉치 크기간의 상관 관계를 통계적으로 고찰하여 수학적 예측함수(estimating functions)를 구한다. 그리고 이를 통해 자료 빈약성(data sparseness) 현상을 타당한 수준으로 감소시켜 말뭉치 기반 자연어처리의 신뢰도를 높이기 위해 요구되는 말뭉치 크기를 예측한다. 또한 예측된 말뭉치 크기를 근거로 합리적인 말뭉치 구축 방법을 제안한다. Much work has been done to automatically extract syntactic and semantic information from a large corpus. However, there are few attempts to estimate the corpus size that can afford NLP systems the coverage and robustness, which are required for them to be practical. This study finds mathematical estimating functions by statistically investigating various mutual relations between the number of different words and the size of a corpus with respect to the words that belong to four major parts-of-speech in 'Ulimal Keun Dictionary'. Hence, we estimate the size of a corpus needed so as to enhance the reliability of corpus-based NLP by reducing the phenomenon of data sparseness to a reasonable degree. Also, we suggest a reasonable method for building a corpus on the basis of the estimated corpus size.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼