RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      한국어 문법적 연어 추출 방법론 연구

      한글로보기

      https://www.riss.kr/link?id=T16072422

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      ABSTRACT
      A Study on the Extraction Methodology of Grammatical
      Collocations in Korean
      Lee, Jin
      Graduate Program in Language and Information
      The Graduate School
      Yonsei University
      This study aims to extract Korean grammatical collocations by applying a
      extraction methodology of grammatical collocation suitable for Korean.
      Grammar items targeted for grammar education in Korean refers to a gram- matical unit consisting of a combination of single vocabularies that are useful
      language units in terms of communication. These items can be seen as at the
      boundary between vocabulary and grammar and among others, for grammatical
      collocations, learning in the form of chunks is essential because the whole
      composition of it has a stronger unitary as one unit compared with lexical
      collocations. However, discussions on collocations so far have mostly focused
      on lexical collocations and accordingly the studies on grammatical collocations
      are still lacking. The studies on the criteria or the methodology for extracting
      collocations have also not been studied much. There is also a problem in applying
      the lexical associations measures developed in consideration of the
      characteristics of English or European languages, which is mainly conducted in
      foreign studies, to Korean without any verification. Therefore, it is necessary
      to discuss on lexical associations measures most suitable for Korean.
      In this study, two to four gram lexical chains were extracted by utilizing the
      N-gram technique for the 21st century Sejong plan Sejong shape analysis
      corpus (hereafter referred to as the Sejong corpus) and the degree of lexical
      combination of each lexical chain was measured by applying 12 measurement
      methods such as cooccurrence frequency, pointwise mutual inꠓformation,
      t-test, chi-squared test, log likelihood ratio, Dice coefficient, z-test, odds ratio,
      minimum sensitivity, relative risk ratio among lexical associations meas-- 231 -
      ures commonly used at home and abroad. For the candidate list of grammatical
      collocations derived in this way, the inappropriate lexical chains as gram- matical collocations were removed by applying the methodology that reflects
      characteristics of Korean grammatical collocations such as entropy and average
      distance.
      As a result of applying 12 types of lexical associations measures to two to
      four gram lexical chains extracted from the Sejong corpus, cooccurrence frequency
      was not significantly affected by the length of N-gram and change of
      register and demonstrates high recall in the upper n% section. In the case of
      the t-test, however, it turned out that the recall significantly decreased in
      both octopus and four grams of spoken language. The t-test was the lexical
      associations measures most affected by the length of N-grams. Although mutual
      information demonstrates a low recall, while showing a tendency to overestimate
      lexical chains of the low frequency, it resulted similar to the cooccurrence
      frequency with the highest recall in both written and spoken language,
      as recall significantly increased when mutual information MI2 and MI3
      were applied bi-gram. Besides that, Dice coefficient and Minimum sensitivity
      rarely used in domestic researches showed high recall. Conversely, they demonstrated
      the lowest recall in Relative Risk and Odds Ratio.
      However, Dice coefficient displayed a tendency to decrease in recall as the
      length of the N-gram increases, and it seems to be affected by the length of
      the N-gram along with the t-test.
      The list of grammatical candidates was extracted by utilizing the cooccurrence
      frequency showing the most stable result among the various lexical associations
      measures. Moreover, inappropriate lexical chains as grammatical
      collocations were removed by utilizing the entropy. By selecting the entropy
      of the lexical elements with high collocation and utilizing the entropy of adjacent
      words, the partial lexical chains of grammatical collocations such as '-
      (으)ㄹ 수-' were removed. Finally, the lexical chains with a large average distance
      were eliminated by measuring the average distance and variance between
      the components of the Grammatical Collocations and by measuring the
      degree of intervention of other elements among the components of the gram- matical collocation. These methods were applied by quantifying the characteristics
      of Grammatical Collocations, and these discussions will be helpful in de-- 232 -
      termining Grammatical Collocations based on the characteristics of Korean.
      The disadvantages caused by extracting grammatical collocations with a mechanical
      methodology can be compensated for by reflecting the characteristics
      of grammatical collocations.
      In the studies on the extraction of the collocations so far, it is impossible
      to qualitatively investigate the entire extracted lexical chain. Therefore, there
      was no choice but to select and study only high-frequency items or only the
      specific compositions of collocations such as 'word + verb'. In this study, it
      could be possible to remove a large number of items inappropriate as gram- matical collocations by using the linguistic characteristics of grammatical collocations
      and accordingly, the list of candidates of grammatical collocations
      could be reduced to a level to be analyzed in a qualitative way, which is by
      approximately 17,000 out of about 2 million lexical chains of two to four
      grams, the initial candidates list of grammatical collocations. It is meaningful
      that the candidate list of grammatical collocations is constructed by selecting
      items with a strong degree of combination between grammatical elements in
      consideration of the characteristics of grammatical collocations rather than
      simply high-frequency items. It is expected that the list of grammatical collocations
      obtained through this study will be used as an objective data to study
      grammatical collocations.
      번역하기

      ABSTRACT A Study on the Extraction Methodology of Grammatical Collocations in Korean Lee, Jin Graduate Program in Language and Information The Graduate School Yonsei University This study aims to extract Korean grammatical collocations by applying a ...

      ABSTRACT
      A Study on the Extraction Methodology of Grammatical
      Collocations in Korean
      Lee, Jin
      Graduate Program in Language and Information
      The Graduate School
      Yonsei University
      This study aims to extract Korean grammatical collocations by applying a
      extraction methodology of grammatical collocation suitable for Korean.
      Grammar items targeted for grammar education in Korean refers to a gram- matical unit consisting of a combination of single vocabularies that are useful
      language units in terms of communication. These items can be seen as at the
      boundary between vocabulary and grammar and among others, for grammatical
      collocations, learning in the form of chunks is essential because the whole
      composition of it has a stronger unitary as one unit compared with lexical
      collocations. However, discussions on collocations so far have mostly focused
      on lexical collocations and accordingly the studies on grammatical collocations
      are still lacking. The studies on the criteria or the methodology for extracting
      collocations have also not been studied much. There is also a problem in applying
      the lexical associations measures developed in consideration of the
      characteristics of English or European languages, which is mainly conducted in
      foreign studies, to Korean without any verification. Therefore, it is necessary
      to discuss on lexical associations measures most suitable for Korean.
      In this study, two to four gram lexical chains were extracted by utilizing the
      N-gram technique for the 21st century Sejong plan Sejong shape analysis
      corpus (hereafter referred to as the Sejong corpus) and the degree of lexical
      combination of each lexical chain was measured by applying 12 measurement
      methods such as cooccurrence frequency, pointwise mutual inꠓformation,
      t-test, chi-squared test, log likelihood ratio, Dice coefficient, z-test, odds ratio,
      minimum sensitivity, relative risk ratio among lexical associations meas-- 231 -
      ures commonly used at home and abroad. For the candidate list of grammatical
      collocations derived in this way, the inappropriate lexical chains as gram- matical collocations were removed by applying the methodology that reflects
      characteristics of Korean grammatical collocations such as entropy and average
      distance.
      As a result of applying 12 types of lexical associations measures to two to
      four gram lexical chains extracted from the Sejong corpus, cooccurrence frequency
      was not significantly affected by the length of N-gram and change of
      register and demonstrates high recall in the upper n% section. In the case of
      the t-test, however, it turned out that the recall significantly decreased in
      both octopus and four grams of spoken language. The t-test was the lexical
      associations measures most affected by the length of N-grams. Although mutual
      information demonstrates a low recall, while showing a tendency to overestimate
      lexical chains of the low frequency, it resulted similar to the cooccurrence
      frequency with the highest recall in both written and spoken language,
      as recall significantly increased when mutual information MI2 and MI3
      were applied bi-gram. Besides that, Dice coefficient and Minimum sensitivity
      rarely used in domestic researches showed high recall. Conversely, they demonstrated
      the lowest recall in Relative Risk and Odds Ratio.
      However, Dice coefficient displayed a tendency to decrease in recall as the
      length of the N-gram increases, and it seems to be affected by the length of
      the N-gram along with the t-test.
      The list of grammatical candidates was extracted by utilizing the cooccurrence
      frequency showing the most stable result among the various lexical associations
      measures. Moreover, inappropriate lexical chains as grammatical
      collocations were removed by utilizing the entropy. By selecting the entropy
      of the lexical elements with high collocation and utilizing the entropy of adjacent
      words, the partial lexical chains of grammatical collocations such as '-
      (으)ㄹ 수-' were removed. Finally, the lexical chains with a large average distance
      were eliminated by measuring the average distance and variance between
      the components of the Grammatical Collocations and by measuring the
      degree of intervention of other elements among the components of the gram- matical collocation. These methods were applied by quantifying the characteristics
      of Grammatical Collocations, and these discussions will be helpful in de-- 232 -
      termining Grammatical Collocations based on the characteristics of Korean.
      The disadvantages caused by extracting grammatical collocations with a mechanical
      methodology can be compensated for by reflecting the characteristics
      of grammatical collocations.
      In the studies on the extraction of the collocations so far, it is impossible
      to qualitatively investigate the entire extracted lexical chain. Therefore, there
      was no choice but to select and study only high-frequency items or only the
      specific compositions of collocations such as 'word + verb'. In this study, it
      could be possible to remove a large number of items inappropriate as gram- matical collocations by using the linguistic characteristics of grammatical collocations
      and accordingly, the list of candidates of grammatical collocations
      could be reduced to a level to be analyzed in a qualitative way, which is by
      approximately 17,000 out of about 2 million lexical chains of two to four
      grams, the initial candidates list of grammatical collocations. It is meaningful
      that the candidate list of grammatical collocations is constructed by selecting
      items with a strong degree of combination between grammatical elements in
      consideration of the characteristics of grammatical collocations rather than
      simply high-frequency items. It is expected that the list of grammatical collocations
      obtained through this study will be used as an objective data to study
      grammatical collocations.

      더보기

      국문 초록 (Abstract) kakao i 다국어 번역

      본 연구는 한국어에 적합한 한국어 문법적 연어 추출 방법론을 적용하여 한국어 문
      법적 연어를 추출하는 데 목적이 있다. 한국어교육에서 문법 교육의 대상으로 삼고
      있는 문법항목은 의사소통 측면에서 유용한 언어 사용 단위인 단일 어휘들의 결합으
      로 이루어진 문법 단위를 말한다. 이러한 항목들은 어휘와 문법의 경계에 있다고 볼
      수 있는데 그중에서도 문법적 연어는 어휘적 연어에 비해 구성 전체가 하나의 단위로
      인식되는 단위성이 강하기 때문에 덩어리 형태의 학습이 필수적이다. 그러나 지금까
      지의 연어에 대한 논의들은 대체로 어휘적 연어에 집중되어 문법적 연어에 대한 연구
      는 부족한 편이다. 연어를 추출하는 기준이나 방법론에 관한 논의 역시 많은 연구가
      이루어지지 않고 있다. 주로 국외 연구에서 이루어지는 영어나 유럽어의 특성을 고려
      하여 개발된 어휘 간 결합도 측정 방법(lexical association measures)을 아무런 검
      증 없이 한국어에 적용하는 것도 문제가 있다. 그러므로 어휘 간 결합도 측정 방법들
      중에서 한국어에 가장 적합한 측정 방법이 무엇인지에 대한 논의가 필요하다. 본 연구는 21세기 세종계획 세종 형태 분석 말뭉치(이하 세종 말뭉치)를 대상으로
      N-그램(N-gram)을 활용하여 2~4그램 어휘적 연쇄를 추출하였고 국내외에서 일반적
      으로 쓰이는 어휘 간 결합도 측정 방법 중 공기빈도, 상호정보(mutual information,
      MI), t-검정(t-test), 카이제곱검정(chi-squared test), 로그우도비(log likelihood ratio),
      다이스계수(Dice coefficient), z-검정(z-test), 승산비(odds ratio), 최소민감도
      (minimum sensitivity), 상대위험비(relative risk ratio) 등 12가지 측정 방법을 적용
      하여 각 어휘적 연쇄의 어휘 간 결합도를 측정해 보았다. 12가지 어휘 간 결합도 측정 방법으로 계산된 측정치를 기준으로 내림차순한 후에
      목록을 12개의 n% 구간으로 구분하여 구간별로 정확률(precision)과 재현율(recall)
      을 계산하였다. 다음으로 레지스터(register)와 N-그램 길이의 관계없이 일관되게 상
      위 n% 구간에서 안정된 재현율을 보인 공기빈도를 활용하여 재현율 90%에 도달하는
      n% 구간까지의 문법적 연어를 1차 문법적 연어 후보 목록으로 선정하였다. 이렇게
      선별한 1차 문법적 연어 후보 목록을 엔트로피와 평균거리 등 한국어 문법적 연어의
      특성을 반영한 방법론을 적용하여 문법적 연어로서 부적합한 어휘적 연쇄들을 제거하
      였다. 먼저 문법적 연어의 구성요소인 어휘적 요소의 엔트로피를 구하여 연어성이 높- ix -
      은 어휘적 요소를 추출하고 이 어휘적 요소를 포함하는 어휘적 연쇄를 추출하여 2차
      문법적 연어 후보 목록을 선별하였다. 다음으로 어휘적 연쇄의 인접 단어 엔트로피를
      구하여 ‘-(으)ㄹ 수’와 같은 문법적 연어의 부분 어휘적 연쇄를 제거하였다. 마지막으
      로 문법적 요소의 구성요소 사이의 평균거리와 분산을 측정하여 구성요소들 사이에
      다른 요소의 개입 정도를 수치로 측정한 후 평균거리가 먼 어휘적 연쇄를 제거했다. 이러한 방법들은 문법적 연어가 가진 특성을 수치화하여 적용한 것인데 이러한 논의
      들이 한국어의 특성에 기반하여 문법적 연어를 판별하는 데 도움이 될 것이다. 정량
      적 방법론으로 문법적 연어를 추출해 냄으로써 생기는 단점들을 문법적 연어의 특성
      을 반영함으로써 보완할 수 있을 것이다. 각 어휘 간 결합도 측정 방법은 문어에 비해 구어에서 재현율에 떨어지는 경향을
      보였는데 이는 어휘 간 결합도 측정 방법이 말뭉치의 크기와 평가 기준으로 삼는 연
      어 목록에 크게 영향을 받기 때문인 것으로 보인다. 구어에서 문어보다 재현율이 낮
      게 측정된 것은 평가 기준으로 삼았던 한국어 교육용 문법적 연어가 구어보다는 문어
      를 중심으로 구성되었기 때문인 것으로 보이며 세종 구어 말뭉치의 규모가 세종 문어
      말뭉치보다 10배 이상 작은 것도 하나의 원인이 된 것으로 보인다. 세종 말뭉치에서 추출한 2~4그램 어휘적 연쇄에 12가지의 어휘 간 결합도 측정 방
      법을 적용해 본 결과 공기빈도는 N-그램의 길이와 레지스터(register)에 크게 영향을
      받지 않고 상위 n% 구간에서 높은 재현율을 보였다. 반면에 t-검정의 경우 문어와
      구어 4그램에서 모두 재현율이 크게 떨어지는 것으로 나타났다. 특히 t-검정은 4그램
      에서 다른 어휘 간 결합 측정 방법들보다 일관되게 재현율이 낮았던 상호정보보다도
      낮은 재현율을 보였다. 기존 논의에서 t-검정은 고빈도 항목에 대해 과평가하는 경향
      이 있는 것으로 나타났는데 본 연구에서 4그램, 특히 구어 4그램의 경우 어휘적 연쇄
      의 구성요소의 빈도가 낮을 뿐 아니라 어휘적 연쇄 자체의 빈도도 낮기 때문에 이러
      한 점들이 t-검정이 문법적 연어를 판별하는 데 부정적인 영향을 미친 것으로 보인
      다. 상호정보는 저빈도의 어휘적 연쇄를 과평가되는 경향을 보이면서 낮은 재현율을 보
      였으나 상호정보 제곱(MI2
      )과 상호정보 세제곱(MI3
      )을 2그램에 적용했을 때는 재현율
      이 크게 상승하면서 문어와 구어 모두에서 가장 재현율이 높았던 공기빈도와 비슷한
      수준의 결과를 보여 주었다. 경험을 기반으로 한(Heuristic) 방법론이기는 하지만 영
      어나 유럽어를 대상으로 한 국외 연구에서 유의미한 결과를 보여 주었는데 한국어 문
      법적 연어 추출에서도 좋은 성능을 보였다. 그외에 국내 연구에서는 잘 사용되지 않
      았던 다이스계수와 최소민감도는 대체로 높은 재현율을 보였지만 승산비와 상대위험
      비는 상호정보와 비슷한 수준의 낮은 재현율을 보였다. 그러나 다이스계수는 N-그램
      이 길이가 길어질수록 재현율이 다소 떨어지는 경향을 보였다.- x -
      본 연구는 국내외 연구에서 연어 추출에 일반적으로 활용되는 12가지의 어휘 간
      결합도 측정 방법을 한국어 문법적 연어 후보 목록을 추출하는 데 적용하였다. 동일
      한 한국어 언어 자료에 대해서 12가지의 어휘 간 결합도 측정 방법을 적용하였고 그
      결과를 평가하여 레지스터와 N-그램 길이의 따라 각 측정 방법의 연어 판별 성능을
      비교했다는 점에서 의의가 있다. 또한 언어적 특성을 적용하여 문법적 연어를 판별하
      는 방법론을 제시하였고 ‘체언+용언’과 같은 일부 연어 구성이나 고빈도 연어만을 대
      상으로 한 연구가 아닌 세종 말뭉치에서 추출한 전체 2~4그램을 대상으로 연구를 진
      행했다. 문법적 연어의 언어적 특성을 활용해서 문법적 연어로 부적합한 항목들을 대
      거 제거할 수 있었고 이를 통해 정성적인 수준까지 분석이 가능하도록 문법적 연어
      후보 목록을 줄일 수 있었다. 단순히 고빈도 항목이 아닌 문법적 연어의 특성을 고려
      하여 통계적으로 어휘 간 결합도가 강한 항목들을 추출하였다. 그러나 본 연구에서 평가 기준 문법적 연어 목록으로 활용한 한국어 교육용 문법적
      연어의 한계로 인해서 구어와 문어에서의 어휘 간 결합도 측정 방법의 차이를 제대로
      비교할 수 없었다. 그러므로 향후 평가 기준 문법적 연어 목록을 효과적으로 구축할
      수 있는 방법에 대한 연구가 필요하다. 기존 인간 주석자들이 수작업으로 연어 여부
      를 판별하여 구축한 평가 기준 문법적 연어 목록은 시간과 노력이 많이 필요하기 때
      문에 국외 연어 추출 연구에서 적용하고 있는 무작위 표본 평가(random sample
      evaluation, RSE) 혹은 사전이나 wordnet 등을 활용한 방법들을 적극적으로 검토해
      볼 필요가 있다. 또한 어휘 간 결합도 측정 방법론을 평가하는 방법론도 다양하게 적
      용해 보고 평가 결과를 비교해 보는 것이 필요할 것이다. 이 역시 기존 영어나 유럽
      어에서 일반적으로 적용되고 있는 방법들이 한국어에도 적합한지를 판단해 보는 동시
      에 한국어에 맞는 새로운 방법론도 연구해 볼 필요가 있다. 또한 12가지의 어휘 간 결합도 측정 방법 외에 영어나 유럽어를 대상으로 유의미
      한 결과를 보인 어휘 간 결합도 측정 방법을 적용해 보고 개별 어휘 간 결합도 측정
      방법을 융합함으로써 한국어 문법적 연어 판별의 성능을 높이는 방법론도 개발할 필
      요가 있다.
      번역하기

      본 연구는 한국어에 적합한 한국어 문법적 연어 추출 방법론을 적용하여 한국어 문 법적 연어를 추출하는 데 목적이 있다. 한국어교육에서 문법 교육의 대상으로 삼고 있는 문법항목은 의...

      본 연구는 한국어에 적합한 한국어 문법적 연어 추출 방법론을 적용하여 한국어 문
      법적 연어를 추출하는 데 목적이 있다. 한국어교육에서 문법 교육의 대상으로 삼고
      있는 문법항목은 의사소통 측면에서 유용한 언어 사용 단위인 단일 어휘들의 결합으
      로 이루어진 문법 단위를 말한다. 이러한 항목들은 어휘와 문법의 경계에 있다고 볼
      수 있는데 그중에서도 문법적 연어는 어휘적 연어에 비해 구성 전체가 하나의 단위로
      인식되는 단위성이 강하기 때문에 덩어리 형태의 학습이 필수적이다. 그러나 지금까
      지의 연어에 대한 논의들은 대체로 어휘적 연어에 집중되어 문법적 연어에 대한 연구
      는 부족한 편이다. 연어를 추출하는 기준이나 방법론에 관한 논의 역시 많은 연구가
      이루어지지 않고 있다. 주로 국외 연구에서 이루어지는 영어나 유럽어의 특성을 고려
      하여 개발된 어휘 간 결합도 측정 방법(lexical association measures)을 아무런 검
      증 없이 한국어에 적용하는 것도 문제가 있다. 그러므로 어휘 간 결합도 측정 방법들
      중에서 한국어에 가장 적합한 측정 방법이 무엇인지에 대한 논의가 필요하다. 본 연구는 21세기 세종계획 세종 형태 분석 말뭉치(이하 세종 말뭉치)를 대상으로
      N-그램(N-gram)을 활용하여 2~4그램 어휘적 연쇄를 추출하였고 국내외에서 일반적
      으로 쓰이는 어휘 간 결합도 측정 방법 중 공기빈도, 상호정보(mutual information,
      MI), t-검정(t-test), 카이제곱검정(chi-squared test), 로그우도비(log likelihood ratio),
      다이스계수(Dice coefficient), z-검정(z-test), 승산비(odds ratio), 최소민감도
      (minimum sensitivity), 상대위험비(relative risk ratio) 등 12가지 측정 방법을 적용
      하여 각 어휘적 연쇄의 어휘 간 결합도를 측정해 보았다. 12가지 어휘 간 결합도 측정 방법으로 계산된 측정치를 기준으로 내림차순한 후에
      목록을 12개의 n% 구간으로 구분하여 구간별로 정확률(precision)과 재현율(recall)
      을 계산하였다. 다음으로 레지스터(register)와 N-그램 길이의 관계없이 일관되게 상
      위 n% 구간에서 안정된 재현율을 보인 공기빈도를 활용하여 재현율 90%에 도달하는
      n% 구간까지의 문법적 연어를 1차 문법적 연어 후보 목록으로 선정하였다. 이렇게
      선별한 1차 문법적 연어 후보 목록을 엔트로피와 평균거리 등 한국어 문법적 연어의
      특성을 반영한 방법론을 적용하여 문법적 연어로서 부적합한 어휘적 연쇄들을 제거하
      였다. 먼저 문법적 연어의 구성요소인 어휘적 요소의 엔트로피를 구하여 연어성이 높- ix -
      은 어휘적 요소를 추출하고 이 어휘적 요소를 포함하는 어휘적 연쇄를 추출하여 2차
      문법적 연어 후보 목록을 선별하였다. 다음으로 어휘적 연쇄의 인접 단어 엔트로피를
      구하여 ‘-(으)ㄹ 수’와 같은 문법적 연어의 부분 어휘적 연쇄를 제거하였다. 마지막으
      로 문법적 요소의 구성요소 사이의 평균거리와 분산을 측정하여 구성요소들 사이에
      다른 요소의 개입 정도를 수치로 측정한 후 평균거리가 먼 어휘적 연쇄를 제거했다. 이러한 방법들은 문법적 연어가 가진 특성을 수치화하여 적용한 것인데 이러한 논의
      들이 한국어의 특성에 기반하여 문법적 연어를 판별하는 데 도움이 될 것이다. 정량
      적 방법론으로 문법적 연어를 추출해 냄으로써 생기는 단점들을 문법적 연어의 특성
      을 반영함으로써 보완할 수 있을 것이다. 각 어휘 간 결합도 측정 방법은 문어에 비해 구어에서 재현율에 떨어지는 경향을
      보였는데 이는 어휘 간 결합도 측정 방법이 말뭉치의 크기와 평가 기준으로 삼는 연
      어 목록에 크게 영향을 받기 때문인 것으로 보인다. 구어에서 문어보다 재현율이 낮
      게 측정된 것은 평가 기준으로 삼았던 한국어 교육용 문법적 연어가 구어보다는 문어
      를 중심으로 구성되었기 때문인 것으로 보이며 세종 구어 말뭉치의 규모가 세종 문어
      말뭉치보다 10배 이상 작은 것도 하나의 원인이 된 것으로 보인다. 세종 말뭉치에서 추출한 2~4그램 어휘적 연쇄에 12가지의 어휘 간 결합도 측정 방
      법을 적용해 본 결과 공기빈도는 N-그램의 길이와 레지스터(register)에 크게 영향을
      받지 않고 상위 n% 구간에서 높은 재현율을 보였다. 반면에 t-검정의 경우 문어와
      구어 4그램에서 모두 재현율이 크게 떨어지는 것으로 나타났다. 특히 t-검정은 4그램
      에서 다른 어휘 간 결합 측정 방법들보다 일관되게 재현율이 낮았던 상호정보보다도
      낮은 재현율을 보였다. 기존 논의에서 t-검정은 고빈도 항목에 대해 과평가하는 경향
      이 있는 것으로 나타났는데 본 연구에서 4그램, 특히 구어 4그램의 경우 어휘적 연쇄
      의 구성요소의 빈도가 낮을 뿐 아니라 어휘적 연쇄 자체의 빈도도 낮기 때문에 이러
      한 점들이 t-검정이 문법적 연어를 판별하는 데 부정적인 영향을 미친 것으로 보인
      다. 상호정보는 저빈도의 어휘적 연쇄를 과평가되는 경향을 보이면서 낮은 재현율을 보
      였으나 상호정보 제곱(MI2
      )과 상호정보 세제곱(MI3
      )을 2그램에 적용했을 때는 재현율
      이 크게 상승하면서 문어와 구어 모두에서 가장 재현율이 높았던 공기빈도와 비슷한
      수준의 결과를 보여 주었다. 경험을 기반으로 한(Heuristic) 방법론이기는 하지만 영
      어나 유럽어를 대상으로 한 국외 연구에서 유의미한 결과를 보여 주었는데 한국어 문
      법적 연어 추출에서도 좋은 성능을 보였다. 그외에 국내 연구에서는 잘 사용되지 않
      았던 다이스계수와 최소민감도는 대체로 높은 재현율을 보였지만 승산비와 상대위험
      비는 상호정보와 비슷한 수준의 낮은 재현율을 보였다. 그러나 다이스계수는 N-그램
      이 길이가 길어질수록 재현율이 다소 떨어지는 경향을 보였다.- x -
      본 연구는 국내외 연구에서 연어 추출에 일반적으로 활용되는 12가지의 어휘 간
      결합도 측정 방법을 한국어 문법적 연어 후보 목록을 추출하는 데 적용하였다. 동일
      한 한국어 언어 자료에 대해서 12가지의 어휘 간 결합도 측정 방법을 적용하였고 그
      결과를 평가하여 레지스터와 N-그램 길이의 따라 각 측정 방법의 연어 판별 성능을
      비교했다는 점에서 의의가 있다. 또한 언어적 특성을 적용하여 문법적 연어를 판별하
      는 방법론을 제시하였고 ‘체언+용언’과 같은 일부 연어 구성이나 고빈도 연어만을 대
      상으로 한 연구가 아닌 세종 말뭉치에서 추출한 전체 2~4그램을 대상으로 연구를 진
      행했다. 문법적 연어의 언어적 특성을 활용해서 문법적 연어로 부적합한 항목들을 대
      거 제거할 수 있었고 이를 통해 정성적인 수준까지 분석이 가능하도록 문법적 연어
      후보 목록을 줄일 수 있었다. 단순히 고빈도 항목이 아닌 문법적 연어의 특성을 고려
      하여 통계적으로 어휘 간 결합도가 강한 항목들을 추출하였다. 그러나 본 연구에서 평가 기준 문법적 연어 목록으로 활용한 한국어 교육용 문법적
      연어의 한계로 인해서 구어와 문어에서의 어휘 간 결합도 측정 방법의 차이를 제대로
      비교할 수 없었다. 그러므로 향후 평가 기준 문법적 연어 목록을 효과적으로 구축할
      수 있는 방법에 대한 연구가 필요하다. 기존 인간 주석자들이 수작업으로 연어 여부
      를 판별하여 구축한 평가 기준 문법적 연어 목록은 시간과 노력이 많이 필요하기 때
      문에 국외 연어 추출 연구에서 적용하고 있는 무작위 표본 평가(random sample
      evaluation, RSE) 혹은 사전이나 wordnet 등을 활용한 방법들을 적극적으로 검토해
      볼 필요가 있다. 또한 어휘 간 결합도 측정 방법론을 평가하는 방법론도 다양하게 적
      용해 보고 평가 결과를 비교해 보는 것이 필요할 것이다. 이 역시 기존 영어나 유럽
      어에서 일반적으로 적용되고 있는 방법들이 한국어에도 적합한지를 판단해 보는 동시
      에 한국어에 맞는 새로운 방법론도 연구해 볼 필요가 있다. 또한 12가지의 어휘 간 결합도 측정 방법 외에 영어나 유럽어를 대상으로 유의미
      한 결과를 보인 어휘 간 결합도 측정 방법을 적용해 보고 개별 어휘 간 결합도 측정
      방법을 융합함으로써 한국어 문법적 연어 판별의 성능을 높이는 방법론도 개발할 필
      요가 있다.

      더보기

      목차 (Table of Contents)

      • 제1장 서론
      • 1.1. 연구 목적 ······························································································································· 1
      • 1.2. 선행 연구 검토 ····················································································································· 5
      • 1.2.1. 문법적 연어 연구 ········································································································· 5
      • 1.2.1.1. 국어학 분야의 연구 ························································································· 5
      • 제1장 서론
      • 1.1. 연구 목적 ······························································································································· 1
      • 1.2. 선행 연구 검토 ····················································································································· 5
      • 1.2.1. 문법적 연어 연구 ········································································································· 5
      • 1.2.1.1. 국어학 분야의 연구 ························································································· 5
      • 1.2.1.2. 한국어교육학 분야의 연구 ··········································································· 10
      • 1.2.2. 연어 추출 방법론 연구 ···························································································· 13
      • 1.2.2.1. 국내 연구 ········································································································· 13
      • 1.2.2.2. 국외 연구 ········································································································· 16
      • 1.3. 논의의 구성 ························································································································ 20
      • 제2장 이론적 배경
      • 2.1. 문법적 연어의 개념 ·········································································································· 21
      • 2.2. 어휘 간 결합도 측정 방법론 ·························································································· 24
      • 2.2.1. 어휘 간 결합도 측정 방법의 적용 ······································································ 24
      • 2.2.2. 어휘 간 결합도 측정 방법의 검증 ······································································ 34
      • 제3장 연구 대상 및 연구 방법
      • 3.1. 연구 대상 ···························································································································· 37
      • 3.2. 연구 방법 ···························································································································· 39
      • 3.2.1. 한국어교육 자료의 문법적 연어 목록 추출 ······················································ 39
      • 3.2.2. 말뭉치 전처리 및 정규화 ······················································································ 44
      • 3.2.3. N-그램 추출 및 후처리 ························································································· 48- ii -
      • 3.2.4. 문법적 연어 후보 목록 추출 및 검증 ································································ 56
      • 3.2.5. 문법적 연어 판별 및 검증 ···················································································· 62
      • 제4장 기존 한국어 교육용 문법적 연어 목록 분석
      • 4.1. 한국어교육 자료별 문법적 연어의 출현 양상 ···························································· 67
      • 4.2. 기존 한국어 교육용 문법적 연어의 사용 빈도 ·························································· 74
      • 4.2.1. 2그램 한국어 교육용 문법적 연어의 사용 빈도 ·············································· 75
      • 4.2.2. 3그램 한국어 교육용 문법적 연어의 사용 빈도 ·············································· 81
      • 4.2.3. 4그램 한국어 교육용 문법적 연어의 사용 빈도 ·············································· 90
      • 4.3. 기존 한국어 교육용 문법적 연어의 구성별 사용 빈도 ············································ 94
      • 4.3.1. 2그램 한국어 교육용 문법적 연어의 구성별 사용 빈도 ································ 94
      • 4.3.2. 3그램 한국어 교육용 문법적 연어의 구성별 사용 빈도 ································ 96
      • 4.3.3. 4그램 한국어 교육용 문법적 연어의 구성별 사용 빈도 ································ 99
      • 제5장 한국어 문법적 연어의 어휘 간 결합도 측정
      • 5.1. 문어 말뭉치에서의 문법적 연어 어휘 간 결합도 측정 ·········································· 105
      • 5.1.1. 2그램 문법적 연어 ································································································ 105
      • 5.1.2. 3그램 문법적 연어 ································································································ 113
      • 5.1.3. 4그램 문법적 연어 ································································································ 116
      • 5.2. 구어 말뭉치에서의 문법적 연어 어휘 간 결합도 측정 ·········································· 119
      • 5.2.1. 2그램 문법적 연어 ································································································ 119
      • 5.2.2. 3그램 문법적 연어 ································································································ 122
      • 5.2.3. 4그램 문법적 연어 ································································································ 124
      • 제6장 한국어 문법적 연어 판별 방법론 적용
      • 6.1. 문법적 연어 어휘적 요소의 연어성 측정 ·································································· 129
      • 6.2. 문법적 연어 인접 단어의 엔트로피 측정 ·································································· 141
      • 6.3. 문법적 연어 구성요소 간의 평균거리 측정 ······························································ 148- iii -
      • 제7장 한국어 문법적 연어 선정 및 분석
      • 7.1. 한국어 문법적 연어 목록 선정 과정 및 기준 ·························································· 157
      • 7.2. 한국어 문법적 연어 목록 선정 ···················································································· 161
      • 제8장 결론 ····························································································································· 166
      • 참고문헌 ·································································································································· 169
      • 부록1. 세종 형태 분석 말뭉치의 어미, 조사 이형태 목록 ······················· 175
      • 부록2. 한국어 교육용 문법적 연어 중복도 ························································ 190
      • 부록3. 문법적 연어 후보 목록 ·················································································· 201
      • 영문 요약 ······························································································································· 230
      더보기

      참고문헌 (Reference)

      1. 연어 연구, 김진해, 한국문화사, , 2000

      2. 국어 연어 연구, 김진해, 경희대학교 대학원 박사학위 논문, , 2000

      3. 최신 정보검색론, 김명철, 홍릉과학출판사, , 2019

      4. 한국어 연어 연구, 임근석, 월인, , 2010

      5. 한국어 연어 연구, 임근석, 서울대학교 대학원 박사학위 논문, , 2006

      6. 국어 연어관계 연구, 이동혁, 고려대학교 대학원 박사학위 논문, , 2004

      7. 언어학과 통계 모델, 신효필, 서울대학교 출판문화원, , 2014

      8. 코퍼스 언어학 기초, 정채관, 김재훈, 권혁승, 한국문화사, , 2018

      9. 한국어교육 문법(자료편), 강현화, 한글파크, , 2016

      10. A Dictionary of English Collocations, Kjellmer , G., , 1994

      1. 연어 연구, 김진해, 한국문화사, , 2000

      2. 국어 연어 연구, 김진해, 경희대학교 대학원 박사학위 논문, , 2000

      3. 최신 정보검색론, 김명철, 홍릉과학출판사, , 2019

      4. 한국어 연어 연구, 임근석, 월인, , 2010

      5. 한국어 연어 연구, 임근석, 서울대학교 대학원 박사학위 논문, , 2006

      6. 국어 연어관계 연구, 이동혁, 고려대학교 대학원 박사학위 논문, , 2004

      7. 언어학과 통계 모델, 신효필, 서울대학교 출판문화원, , 2014

      8. 코퍼스 언어학 기초, 정채관, 김재훈, 권혁승, 한국문화사, , 2018

      9. 한국어교육 문법(자료편), 강현화, 한글파크, , 2016

      10. A Dictionary of English Collocations, Kjellmer , G., , 1994

      11. 한국어 계량적 연구 방법론, 박병선, 역락, , 2005

      12. ‘문법적 연어’에 대한 고찰, 박형진, 열린정신 인문학연구, 10(1), 41-57, , 2009

      13. 한국어의 정형화된 표현 연구, 송현주, 남길임, 최준, 담화와 인지, 17(2), 163-190, , 2010

      14. 한국어 교육용 조사 어미 사전, 이희자, 이종희, 한국문화사, , 2001

      15. 한국어 문법적 연어 개념 연구, 유해준, 영주어문, 44, 113-126, , 2020

      16. 현대 국어의 어휘적 연어 연구, 임근석, 서울대학교 대학원 석사 학위 논문, , 2002

      17. Collocationality ( and how to measure it ), Kilgarriff , A, , 2006

      18. Retrieving collocations from text : Xtract, Smadja , F., 19 ( 1 ) ., , 1993

      19. 외국어로서의 한국어 문법 사전, 백봉자, 도서출판 하우, , 2009

      20. 한국어교육을 위한 복합형식 연구, 서희정, 경희대학교 대학원 박사학위 논문, , 2009

      21. 문법적 연어의 개념 정립을 위하여, 임근석, 행태론, 7(2), 277-301, , 2005

      22. 한국어 교육을 위한 구문표현 연구, 최윤곤, 동국대학교 대학원 박사학위 논문, , 2004

      23. 한국어 연어의 개념과 특성 및 유형, 여춘연, 한국(조선)어교육연구, 7, 109-127, , 2010

      24. 현대 국어 관용구의 결합 관계 고찰, 이희자, 대동문화연구, 30, 411-444, , 1995

      25. 엔트로피를 이용한 한국어 연어 추출, 박경미, 연세대학교 대학원 석사학위 논문, , 2002

      26. 한국어 교재에서의 문법적 연어 연구, 이인희, 인문과학연구, 22, 15-33, , 2014

      27. Lexis as a linguistic level , In Memory of J.R.Firth, Halliday , M. A. K., , 1966

      28. 명사를 중심어로 하는 문법적 연어 구성, 이은경, 한국어 의미학, 17, 177-205, , 2005

      29. 한국어 교육용 문법 용어의 표준화 방안, 방성원, 한국어교육, 13(1), 107-125, , 2002

      30. Empirical implications on lexical association measures, Krenn , B, , 2000

      31. From n-grams to collocations : An evaluation of Xtract, Smadja , F., pp . 279-284, , 1991

      32. Lexical association measures and collocation extraction, Pecina , P., 44 ( 1 ) , 137-158 ., , 2010

      33. 한국어 정보 처리와 연어 정보, 국어학, 39, 서상규, 국어학회, 321-360, , 2002

      34. 한국어교육을 위한 표현문형에 관한 연구, 손연정, 연세대학교 대학원 박사학위 논문, , 2014

      35. 한국어교육에서의 연어 연구 동향 및 과제, 유소영, 김선영, 언어와 문화 16(3), 1-30, , 2020

      36. Combining association measures for collocation extraction, Pecina , P, , 2006

      37. Korean lexical bundles in conversation and academic texts, Kim , Y, , 2009

      38. 국제 통용 한국어 표준 교육과정 적용 연구, 김중섭, 국립국어원, , 2017

      39. 한국어 연어 정보의 분석응용에 관한 연구., 홍종선, 최호철, 강범모, 한국어학, 11, 73-158, , 2000

      40. 한국어 연어의 개념과 그 통사 의미적 성격, 임홍빈, 김진해, 국어학, 39, 279-320, , 2002

      41. 한국어 문법교육을 위한 표현문형 설정 연구, 종장지, 새국어교육, 95, 331-361, , 2013

      42. 통계에 기반한 한국어 연어 결합 측정의 평가, 이두행, 연세대학교 대학원 석사학 위 논문, , 2011

      43. 통계적 방법을 이용한 문법적 연어 후보 추출, 임근석, 한국어학, 45, 305-333, , 2009

      44. Accurate methods for the statistics of surprise and coincidence, Dunning , T., 19 ( 1 ) , 61-74 ., , 1993

      45. 한국어 정형표현 연구-대규모 말뭉치를 중심으로, 장석배, 연세대학교 대학원 박 사학위 논문, , 2015

      46. 한국어 교재의 문형유형 분석-문형 등급화를 위해, 강현화, 한국어교육 18(1), 1-21, , 2007

      47. 연어적 구성을 통한 한국어 교육용 어휘 구성 방안, 유해준, 어문론집, 43, 31-48, , 2010

      48. Corpora and collocations ( extended manuscript ) . Corpus Linguistics, Evert , S., 2, , 2007

      49. 50-something years of work on collocations : what is or should be next, Gries , S.T, Vol . 18 , No . 1 , pp . 137 ? 166 . DOI : 10.1075/ijcl.18.1.09gri ., , 2013

      50. 언어 자료의 통계 분석과 관련된 몇 가지 고려사항들, 신효필, 어학연구, 41, 655-682, , 2005

      51. 한국어 어휘 교육을 위한 연어 학습 방안, 국어교육, 109, 문금현, 국어교육학회, 217-250, , 2002

      52. 한국어 연어의 개념과 그 통사, 의미적 성격, 국어학, 39, 임홍빈, 국어학회, , 2002

      53. Idioms and Collocations : Corpus-based Linguistic and Lexicographic Studies, Fellbaum , C., , 2009

      54. 연어의 통계적 접근을 통한 로그우도비 중심의 연어 검증, 신효필, 언어학, 47, 107-138, , 2007

      55. Lexical association measures and collocation , Language Resources and Evaluation, Pecina , P, Volume 44 , Numbers 1-2, , 2009

      56. Survey of word co-occurrence measures for collocation detection . Computaci ? n y Sistemas, Kolesnikova , O, 20 ( 3 ) , 327-344, , 2016

      57. 제 2언어로서의 한국어 표준 문법-조사, 어미, 관용표현을 중심으 로, 김정은, 이소영, 이중언어학, 19, 187-207, , 2001

      58. 병렬말뭉치의 구축과 활용; 대규모 연어추출을 위한 통계적 기법 비교, 주은석, 언어사실과 관점, 25, 189-210, , 2010

      59. 학술 텍스트 정형 표현 연구: 연결 표현과 종결 표현의 공기관계를 중심 으로, 허희정, 연세대학교 대학원 석사학위 논문, , 2016

      60. The Statistics of Word Cooccurrences Word Pairs and Collocations , PhD thesis , Universit ? t Stuttgart, Evert , S, , 2004

      61. 한국어교육을 위한 장르별 연어 사용 양상 연구, 용언의 인접 구 성을 중심으로, 박지순, 홍혜란, 언어과학, 27-2, 81-114, , 2020

      62. 한국어 구어 말뭉치를 대상으로 한 연어구성 추출 방법들의 비교: 재현가 능 연구, 이은하, 언어와 언어학, 70, 497-539, , 2016

      63. Patrimoine vs. dziedzictwo ? interculturality in French language teaching . tekst i dyskurs ? text und diskurs, Dryja ? ska , A ., 13 ( 13 ) , 175-193 ., , 2020

      64. 한국어 고급학습자의 문법적 연어 오류 분석-학습자 말뭉치와 작문 자료 를 중심으로, 홍혜란, 비교문화연구, 11(1), 23-52, , 2007

      65. 한국어교육에서의 문법적 연어 분류에 관한 연구-대학기관 한국어 교재 분석을 중심으로, 박종호, 한민족문화연구, 50, 239-264, , 2015

      66. 한국어 학습자의 어휘적 연어 사용 양상 연구-학습자의 모국어와 급수별 비교를 중심으로, 임근석, 남하정, 한국언어문화, 75, 177-205, , 2021

      67. “부사-용언”관계를 이용한 타당한 연어 검정 방법 검토: 세종 코퍼스 구 어자료를 중심으로, 정성훈, 한국어학, 66, 245-278, , 2015

      68. A machine learning approach to multiword expression extraction . In : Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions ( MWE 2008, Pecina , Pavel, Marrakech , [ s. p. ] , p. 54-61, , 2008

      69. On the phraseology of spoken English : the evidence of recurrent word-combination . Phraseology . In : Theory , Analysis , and Applications . Clarendon , Oxford , 101 ? 122, Altenberg , B., , 1998

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼