RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
          펼치기
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구

        이동주(Dongjoo Lee),연종흠(Jongheum Yeon),황인범(Inbeom Hwang),이상구(Sang-goo Lee) 한국정보과학회 2010 정보과학회 컴퓨팅의 실제 논문지 Vol.16 No.11

        말뭉치는 언어학 분야에서 다양한 연구를 위한 기초자료로서 활용된다. 국내에서도 세종 21세기 계획 등을 통해서 몇몇 대용량 말뭉치가 구축되었으나, 다수의 사용자가 쉽게 활용할 수 있는 활용 도구에 대한 연구는 여전히 부족하다. 본 논문에서는 한국어 대용량 말뭉치 중 하나인 세종 현대 국어 말뭉치를 관계형 데이터베이스에 저장하여, 다양한 방법으로 활용할 수 있도록 지원하는 말뭉치 활용도구에 대한 설계 및 구현 방법을 보인다. 웹 기반의 말뭉치 활용 시스템을 구축하였고, 실제로 언어학 연구자들에게 사용되고 있다. Corpus is widely used as a fundamental resource for various purposes in linguistic studies. There are several large corpora such as Sejong corpus in Korea. However, it is hard to find a tool utilizing such large corpora. In this paper, we propose a method of utilizing Sejong corpus based on the relational database. We designed the relational database scheme to store corpus and implemented a Web-based application so that many researchers can easily access and utilize the Sejong corpus.

      • KCI등재

        말뭉치 기반 한외(韓外) 대조언어학 연구에 대한 일고찰

        황은하 ( Huang Yinxia ) 한국문학언어학회(구 경북어문학회) 2016 어문론총 Vol.69 No.-

        최근 언어학계는 단일언어의 연구는 물론, 언어간 연구에서도 말뭉치에 대한 관심과 활용 사례가 계속해서 늘고 있다. 그러나 언어간 연구에 필요한 말뭉치가 갖춰야 할 요건이나 연구 방법론에 대한 논의는 아직 미비한 편이다. 따라서 이 연구는 대조언어학(contrastive linguistics)에 필요한 말뭉치(corpus)의 유형과 개념, 구축 과정, 활용 현황과 문제점에 대해 논의하는 것을 목적으로 한다. 이를 위해 우선, 대조분석 연구의 두 가지 서로 다른 연구 방법론, 즉 단방향 대조분석(또는 대응 연구(correspondence analysis))과 쌍방향 대조분석 방법론을 살펴보고 연구 방법별로 어떤 말뭉치를 필요로 하는지를 논의한다. 다음으로, 서로 다른 두 말뭉치, 즉 병렬말뭉치(parallel corpus)와 비교말뭉치(comparative corpus)의 개념, 대조언어학 연구에 활용될 시 각각의 장점 및 말뭉치의 설계에서 시작해 자료의 선별과 수집, 텍스트의 전산화, 전처리, 문장 정렬 등의 구축 과정 전반에 대해 기술한다. 덧붙여 이 두 가지 말뭉치를 활용한 한국어와 외국어간의 대조분석 연구 현황을 자세히 살펴보고, 문제점을 짚어본다. There have been extensive research interests and applications based on a corpus in both monolingual and cross-linguistic studies. However, little attention has been paid to multilingual corpus design, compilation issues, and its application methods in cross-linguistic research. Accordingly, in this paper, we present different corpus types and corpus compilation methods for contrastive study, and discuss useful applications of a corpus for contrastive linguistics. To this end, we first compare two research methods: one-way and two-way contrastive analyses. Second, we show that a parallel corpus can be used for one-way contrastive analysis, and a comparable corpus can be used for two-way contrastive analysis. Moreover, we describe the concept and merits of parallel and comparable corpora, as well as their compilation process: corpus design, data collection and computerization, and mark-up. We also give a full briefing of the current state of contrastive study between Korean and foreign languages using parallel and comparative corpora. Finally, we discuss the remaining problems for corpus applications in contrastive linguistics.

      • KCI등재

        한국어 말뭉치 구축의 현황 - 연세 말뭉치를 중심으로 -

        김한샘 ( Kim Han-saem ) 반교어문학회 2017 泮橋語文硏究 Vol.0 No.45

        연세 말뭉치는 양적인 확장과 질적인 완성도 제고라는 두 가지 방향성을 가지고 꾸준히 구축되어 왔으며 말뭉치의 품질을 높이기 위한 연구가 병행되고 있다. 말뭉치는 원 자료의 매체가 무엇이냐에 따라 문어 말뭉치, 구어 말뭉치, 다면 자료 말뭉치로 나눌 수 있으며 시간의 흐름에 따른 변화 포착이 목적인지 여부에 따라 공시적 언어 자원과 통시적 언어 자원으로 나눌 수 있고, 언어 자원 생산자의 거주 지역, 성별, 사회적 계층에 따라 다른 성격의 언어 자원이 생성되며 텍스트 자체의 특성을 결정짓는 장르에 따라서도 분류할 수 있다. 연세 말뭉치는 원시 말뭉치, 형태소 주석 말뭉치, 어휘 주석 말뭉치, 다의어 주석 말뭉치, 몸짓 주석 말뭉치 등 주석 단계별로 다양한 말뭉치를 포함하며 시기적으로는 현대 한국어 형성기라 볼 수 있는 1800년대 후반 이후의 텍스트를 골고루 포함하고 있다. 연세 말뭉치는 말뭉치의 원자료 매체가 문자 언어, 음성 언어, 발화 영상, SNS로 다양하며 활용 분야도 사전 편찬, 언어 연구, 언어 교육, 학제적 연구 등으로 다양하다. The Yonsei corpus has been constructed steadily with two directions : quantitative expansion and quality improvement, and research is conducted to improve the quality of corpus. A corpus can be divided into an octopus corpus, a spoken corpus, and a polyhedron corpus depending on what the medium of the original data is, and it can be divided into a temporal language resource and a communicative language resource depending on whether the purpose is to capture change with time, Language resources of different characteristics are generated according to the residence area, sex, and social class of the language resource producer, and the language resource can be classified according to the genre which determines the characteristics of the text itself. The Yonsei corpus includes various corpus of Chinese corpus such as primitive corpus, morpheme annotation corpus, vocabulary annotation corpus, vernacular annotation corpus, gesture annotation corpus, and evenly includes texts from late 1800s is. The Yonsei corpus varies in the source language of the corpus as the text language, the spoken language, the spoken language, and SNS, and the fields of application vary in dictionary compilation, language research, language education, and interdisciplinary research.

      • KCI등재

        언간의 말뭉치 구축 현황과 향후 구축 방향

        이래호 한민족어문학회 2023 韓民族語文學 Vol.- No.102

        본고는 지금까지 공개된 언간과 이들 언간의 말뭉치 구축의 현황을 살펴보고 앞으로 언간의 말뭉치 구축과 관련한 향후 방향에 대해 관견을 제시하는 것을 목적으로 한다. 지금까지 그 현황이 파악된 언간은 5,100여 건이며 실제 판독문이 공개되어 국어사 연구에 활용할 수 있는 편지들은 3,400여 건 정도가 된다. 언간의 말뭉치 구축은 21세기 세종계획에서 2종의 언간이 원시 말뭉치와 형태 분석 말뭉치로 구축되었다. 한국학중앙연구원에서는 언간 45종 1465건, 15 만 5천 어절의 말뭉치를 구축하였고, 이후 언간 1,300여 건을 이미지, 판독문, 주석문, 현대어역, 해설, 키워드 등이 병렬적으로 짝이 되도록 구축하였다. 역사자료 종합 정비 사업에서는 총 6종의 194건을 말뭉치로 구축하고 여러 오류들을 수정하였다. 언간 말뭉치의 향후 구축 방향과 관련하여 지속적인 언간 말뭉치 구축, 대용량 형태 분석 말뭉치 구축, 검색을 위한 멀티 버전 말뭉치 구축, 말뭉치 구축의 형식 통일, 언간 말뭉치의 인터넷 서비스를 위한 이미지 자료구축 등을 제안하였다. This study aimed to examine the current status of Eon’gan (Korean old letters) made public and the construction of their corpora and to provide future direction of Eon'gan corpus construction. So far, approximately 4,900 Eon'gans have been identified, with many Eon'gans still awaiting organization. New Eon'gans continue to be discovered. Eon'gan corpus construction began with the 21st Century Sejong Plan, where two types of Eon'gan were constructed as raw text corpora and morphological analysis corpora. The Academy of Korean Studies has compiled a corpus of 45 types of Eon'gan, totaling 1,465 documents and 155,000 words of text. Subsequently, over 1,300 Eon'gan have been constructed with images, readable texts, annotations, modern Korean translations, explanations, and keywords. In the Comprehensive Modification of Historical Materials Project, a total of six types of Eon'gan comprising 194 documents were constructed as corpora and various errors were rectified. As of now, of many Eon'gan that have been discovered, only a limited number, approximately less than 1,500, have been constructed as corpora for public service or research use. Regarding the future direction of Eon'gan corpus construction, suggestions are made for continuous Eon'gan corpus construction, the development of large-scale morphological analysis corpora, the construction of multi-version corpora for searching, standardization of corpus construction formats, and the development of internet services for Eon'gan corpora, including image data.

      • KCI등재

        구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축

        강승식(Seung-Shik Kang),원혜진(HyeJin Won),이민행(Minhaeng Lee) 한국스마트미디어학회 2020 스마트미디어저널 Vol.9 No.4

        모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘 사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 ‘좋-’, ‘죄송하-’, ‘즐겁-’ 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다. In a mobile environment, communication takes place via SMS text messages. Vocabularies used in SMS texts can be expected to use vocabularies of different classes from those used in general Korean literary style sentence. For example, in the case of a typical literary style, the sentence is correctly initiated or terminated and the sentence is well constructed, while SMS text corpus often replaces the component with an omission and a brief representation. To analyze these vocabulary usage characteristics, the existing colloquial style corpus and the literary style corpus are used. The experiment compares and analyzes the vocabulary use characteristics of the colloquial corpus SMS text corpus and the Naver Sentiment Movie Corpus, and the written Korean written corpus. For the comparison and analysis of vocabulary for each corpus, the part of speech tag adjective (VA) was used as a standard, and a distinctive collexeme analysis method was used to measure collostructural strength. As a result, it was confirmed that adjectives related to emotional expression such as good- , sorry- , and joy- were preferred in the SMS text corpus, while adjectives related to evaluation expressions were preferred in the Naver Sentiment Movie Corpus. The word embedding was used to automatically construct a sentiment lexicon based on the extracted adjectives with high collostructural strength, and a total of 343,603 sentiment representations were automatically built.

      • 한국어교육에서 일반 말뭉치 활용의 확대를 위한 제언

        고경태(Koh Kyoungtae) 국어문학회 2010 국어문학 Vol.49 No.-

        이 글에서는 한국어교육에서 말뭉치의 활용이 좀 더 확대될 필요가 있음을 주장하고, 이를 위해 필요한 것들이 무엇인지를 다루었다. 말뭉치가 한참 각광을 받을 당시에는 말뭉치의 효용이 크게 기대되었으나 실제로 한국어교육에서 이를 활용한 연구는 적은 편이다. 그 이유에 대해 본고는 첫째, 말뭉치 활용을 위한 적절한 응용 프로그램(문맥 색인 프로그램)의 부재, 둘째, 말뭉치 자체에 대한 오해 또는 올바른 인식의 부재를 꼽았다. 그리고 말뭉치를 통한 한국어교육 연구의 활성에 있어서 다양한 정렬 방식을 지원하는 문맥 색인기가 개발될 필요가 있다는 것과, 말뭉치는 무조건 커야 한다든지 구어 말뭉치만이 유용하다든지 하는 생각 대신, 연구 주제와 범위에 맞게 균형성이 있는 말뭉치를 이용하는 것이 중요하다고 강조하였다. This study aims to emphasize the importance of the general corpus-based studies and to give suggestions for enlargement of them in Korean language teaching. By Korean language educators, the general corpora have been expected that they could give appropriate uses of words or morphemes and help to compose teaching contents by virtue of plentiful authentic data. However, there are few studies that take full advantage of general corpora, and this is partly because of the insufficient information or knowledge on the general corpus itself. According to this issue, I suggest that very specialized small sized corpora or D.I.Y. copora, i.e., the corpus built with TV news or society section in newspapers etc., could be useful to compose the teaching contents, and emphasize that the appropriateness of corpus adopted in a research must be evaluated not by the size but by the balance of it. In addition, for a successful study, it would be needed not only the balanced corpus suitable for its intended use, but also the intuition of corpus-based researchers.

      • KCI등재

        텍스트 유형별 말뭉치와 한국어 교재 말뭉치에 나타나는 ‘그러면’의 사용 양상 연구

        신민섭 국제한국언어문화학회 2021 한국언어문화학 Vol.18 No.2

        본 연구의 목적은 한국어 모어 화자의 실제 언어 자료인 텍스트 유형별 말뭉치와 한국어 교육용 텍스트인 한국어 교재 말뭉치에 나타나는 ‘그러면’의 용례를 계량적으로 분석하여 사용 양상을 기술하고 두 말뭉치에서의 쓰임을 비교하는 데 있다. 이를 위하여 ‘그러면’을 사전에서 풀이하는 의미에 따라 용언의 활용형, 접속 부사, 담화 표지의 세 가지 범주로 구분하고 각각의 용례들을 분류하였다. 분류 결과 텍스트유형별 말뭉치와 한국어 교재 말뭉치모두 ‘접속 부사>담화 표지>용언의 활용형’ 순으로 ‘그러면’이 쓰이는 것을 확인할 수 있었다. 한국어 교재 말뭉치의 경우 전체 ‘그러면’ 용례의 절반 이상이 접속 부사로 사용되는 양상을 보여 실제 언어 자료에서의 분포와 다소 차이가 있었고두 말뭉치 모두 담화 표지로 쓰이는 용례의 분포에서는 두드러진 차이가 나타나지 않았다. 그리고 용언의 활용형으로 사용되는 ‘그러면’의양상을 살펴본 결과 특히 한국어 교재 말뭉치에서 다른 범주에 비해낮은 분포를 보이는 것을 확인할 수 있었다. 이러한 분석 결과는 한국어 교육용 텍스트가 보다 실제적인 언어 사용을 반영하여 구성되어야할 필요성을 보여준다. This study aims to qualitatively analyze examples of ‘Geureomyeon’ in two types of corpora, a Korean register corpus and a Korean textbook corpus, by describing the aspects of uses and comparing their uses in a respective corpus. To this end, first, the use of ‘Geureomyeon’ was classified into three categories -conjugated form, conjunctive adverb, and discourse marker- in accordance with their definitions suggested in a Korean dictionary. The next step was to analyze the examples, as a result, it was found that both corpus illustrated the same ordering by frequency. Conjunctive adverbs constituted the most frequent, discourse marker was the second most and conjugated form accounts for the least. In case of the Korean textbook corpus, more than half of the examples of ‘Geureomyeon’ were employed as conjunctive adverbs, showing a certain degree of difference from real language data. Meanwhile, both corpus did not show significant differences in the use of ‘Geureomyeon’ as a purpose of discourse marker. Lastly, the examples classified as conjugated forms accounted for a lower proportion of use, particularly in the Korean textbook corpus, than those of other categories. These results indicated that Korean language text for education should reflect Korean usage more realistically.(Yonsei University)

      • KCI등재

        다국어 병렬 말뭉치의 구축과 한국어교육 연구에의 활용

        민경모 계명대학교 한국학연구원 2020 한국학논집 Vol.0 No.78

        The aim of this research is to examine the potential problems which can be encountered while constructing a multilingual parallel corpus, and to give concrete examples showing how multilingual parallel corpora can be useful in Korean language education studies. Language education studies have expressed much interest in exploring differences in the parts of a language which cause difficulties for learners from different language groups. For this reason, the contrastive linguistic methodology has been used to examine differences and similarities between the target language and the learner’s mother tongue. In the case of applicative purpose contrastive studies, objectively extracting matching pairs from the two languages is above all important. Parallel corpora are used as the primary data for extracting the matching pairs, and the issue of their construction and use has been actively discussed since the 1990s. Since parallel corpora have such an important meaning as the primary data in language studies, large scale projects to construct parallel corpora were conducted in each country, and in Korea a great number of parallel corpora was constructed through the Sejong Project. Yet, when it comes to the parallel corpora constructed until now, the majority of them were parallel corpora of only two languages, and the target languages were mostly limited only to major languages. In particular, there has been no parallel corpus in Korea which included more than 3 languages, and the target languages have been extremely limited to languages such as English, Chinese, Japanese, French, German, etc. If we examine the problem of constructing parallel corpora from a contrastive studies perspective with Korean education in mind, the existing parallel corpora, with the exception of Chinese, have no relation to the mother tongues of the main Korean learners groups at the moment. Since the contrastive studies for Korean language education have a prerequisite of promoting understanding between the mother tongues of the learners, there is a need for constructing parallel corpora of Korean and mother tongues of the learners. Moreover, there is also a need to gather the primary data for contrastive studies on the types of languages by constructing multilingual parallel corpora of not only two, but also three or more languages. The discussion on constructing multilingual parallel corpora of three and more languages and constructing parallel corpora of minority languages is dealt with in this presentation for the first time in Korea. In this research, we construct experimental multilingual parallel corpora of Korean and English, Vietnamese, Uzbek, Thai, and Sinhalese, and also examine the problems of constructing multilingual parallel corpora centred around Korean. We examine the problems of data selection, hub languages, character codes, and example search which emerge in the construction of multilingual parallel corpora of minor languages. We also look into concrete examples on how to extract matching pairs of vocabulary to apply in parallel corpora by using a multilingual example search tool, which is being currently developed. 이 연구는 다국어 병렬 말뭉치를 구축하고자 할 때 발생하는 문제를 살피고, 한국어교육 연구에서 다국어 병렬 말뭉치가 유용하게 활용될 수 있음을 실례를 들어 보이는 데 그 목적이 있다. 언어교육 연구에서는 학습자가 어려워하는 학습 항목의 언어권별 차이를 밝히는 데 많은 관심을 기울여 왔다. 이를 위한 한 방편으로 목표 언어와 학습자 모어 간의 차이점과 유사점을 살피는 대조언어학적 방법론이 유용하게 활용되고 있는데, 응용적 목적의 대조 연구에서는 우선적으로 언어 간 대응쌍을 객관적으로 추출하는 것이 중요하다. 병렬 말뭉치는 언어 간 대응쌍 추출에 이용되는 기초 자료로, 구축 및 이용의 문제가 1990년대부터 활발히 논의되어 왔다. 병렬 말뭉치는 언어교육을 위한 기초 자료라는 측면에서 중요한 의미를 지니기에 세계 각국에서는 대규모의 병렬 말뭉치 구축 사업을 실시하였고, 국내에서도 세종계획을 통하여 상당량의 병렬 말뭉치를 구축하였다. 그러나 지금까지 구축된 병렬 말뭉치는 두 언어 간 병렬 말뭉치가 주를 이루고, 구축 대상 언어도 주요 언어에 국한되어 있다. 특히 국내에서는 세 언어 이상의 병렬 말뭉치, 즉 다국어 병렬 말뭉치가 아직까지 구축된 바 없으며, 구축 대상 언어도 영어, 중국어, 일본어, 프랑스어, 독일어 등 극히 한정된 언어에 머물러 있다. 한국어교육을 위한 대조 연구에 초점을 두어 병렬 말뭉치의 구축 문제를 살펴보면, 지금까지 구축된 병렬 말뭉치는 중국어를 제외하고는 현재의 주요 한국어 학습자 층의 모어와는 괴리된 측면이 있다. 한국어교육을 위한 대조 연구는 학습자 및 학습자 모어의 이해를 도모한다는 대전제가 있기에 한국어와 한국어 학습자 모어 간 병렬 말뭉치 구축이 요구된다. 또한 두 언어 간 병렬 말뭉치가 아닌 세 언어 이상의 다국어 병렬 말뭉치 구축을 통하여 언어 유형에 기반한 대조 연구의 기초 자료를 확보할 필요성도 제기된다. 이 연구에서 다루는 세 언어 이상의 다국어 병렬 말뭉치 구축 논의나 소수 언어를 대상으로 한 병렬 말뭉치 구축 논의는 국내에서 처음으로 이루어지는 것이다. 여기에서는 한국어와 영어, 베트남어, 우즈베크어, 태국어, 신할리즈어 간 다국어 병렬 말뭉치를 시험적으로 구축하고, 한국어를 중심 언어로 하는 다국어 병렬 말뭉치 구축의 문제를 살펴본다. 이어서 언어 간 대응쌍 추출의 예를 통하여 다국어 병렬 말뭉치가 한국어교육을 위한 기초 자료로서 유용하게 쓰일 수 있음을 보이고자 한다. 다국어 병렬 말뭉치의 구축 문제에서는 소수 언어를 병렬 말뭉치로 구축할 때 발생하는 자료 선택의 문제, 연계 언어의 문제, 문자 코드의 문제, 용례 검색의 문제를 살피고, 다국어 병렬 말뭉치의 활용에서는 개발하고 있는 다국어 용례 검색기를 통하여 언어 간 대응쌍을 어떻게 추출할 수 있는지를 실례를 들어 보일 것이다.

      • KCI등재

        한국어 학습자 말뭉치의 개인 정보 처리 분석 - 국립국어원 한국어 학습자 말뭉치를 중심으로 -

        임태운 중앙어문학회 2022 語文論集 Vol.91 No.-

        This study analyzed the pattern of personal information exposure in the corpus of Korean learners. The current status of personal information exposure of the corpus of Korean learners was identified, and the transcription direction for the corpus to be built was presented. This study is noteworthy because it dealt with the protection of learners’ human rights and privacy, which was not covered in previous studies. First, this study examined the function and role of the learner corpus. In order to efficiently utilize the learner corpus, basic information regarding the learners is required. This information should be provided to the extent agreed by the learner, and the anonymity of the corpus provider should be guaranteed. However, it is not easy to process large-scale personal information data on a consistent basis. Second, how the Korean language learner corpus processes the learners’ personal information was confirmed as actual corpus data. It was found that the extent of personal information to be processed as “<name>” should be clarified in the transcription guidelines, and it is also necessary to subdivide the form according to the type of name. There are two types of personal information exposure in the corpus of Korean learners. The first is an example of failure to follow transcription guidelines. The personal information presented includes learner names, peer names, learning institutions, phone numbers, and e-mail IDs. The second is the exposure of personal information, caused by the combination of information in the corpus content even though there is no violation of transcription guidelines. Finally, the direction for the personal information processing of the Korean language learner corpus to be built was divided into three categories. First, there should be sufficient education to prevent personal information exposure caused by violations of transcription guidelines. Second, the scope of items to be processed for personal information should be explicitly defined. Third, since personal identification is possible by combining information in the text, personal information should be processed while considering the entire content. 이 연구는 한국어 학습자 말뭉치에 나타난 개인 정보 노출 양상에 대해 분석한 것이다. 한국어 학습자 말뭉치의 개인 정보 노출 현황을 파악하고, 앞으로 구축될 말뭉치의 전사방향을 제시하였다. 선행 연구에서는 다루지 않았던 학습자의 인권과 사생활 보호를 다루었다는 점에서 의의가 있다. 먼저 학습자 말뭉치의 기능과 역할에 대해 알아보았다. 학습자 말뭉치를 효율적으로 활용하기 위해서는 학습자의 기본 정보가 필요하다. 이 정보는 학습자가 동의한 범위 내에서제공되어야 하며 말뭉치 제공자의 익명성이 보장되어야 한다. 그러나 대규모의 데이터에포함된 개인 정보를 일관성 있는 기준으로 처리한다는 것은 쉽지 않다. 다음으로 한국어 학습자 말뭉치에서 학습자의 개인 정보 처리를 어떻게 하고 있는지를실제 말뭉치 자료로 예를 들어 확인하였다. 전사 지침에 ‘<name>’으로 처리할 개인 정보의 범위를 명확히 제시하여야 하며, 이름의 종류에 따른 형식의 세분화도 필요함을 알 수있었다. 한국어 학습자 말뭉치의 개인 정보 노출 유형에는 두 가지가 있었다. 첫 번째는 전사지침을 따르지 않아 생긴 예이다. 노출된 개인 정보에는 학습자 이름, 동료 학습자 이름, 학습 기관, 전화번호, 이메일 등이 있었다. 두 번째는 전사 지침을 위반하지 않았음에도 말뭉치 내용 안에 있는 정보와 정보 간의 결합으로 생기는 개인 정보 노출이다. 이를 잠재적개인 정보 노출로 보고 예를 제시하여 분석하였다. 끝으로 구축될 한국어 학습자 말뭉치의 개인 정보 처리 방향에 대해 제안하였다. 첫째, 전사자를 충분히 교육하여 전사 지침 위반으로 생기는 개인 정보 노출이 없어야 한다. 둘째, 개인 정보 처리할 항목 범위와 세부 항목을 명시적으로 규정해야 한다. 셋째, 텍스트내에 있는 정보나 정보 간의 결합으로 개인 식별이 가능하므로 전체 내용을 고려하면서개인 정보를 처리해야 한다.

      • KCI등재

        고전적(古典籍) 전산화에서 말뭉치 언어학 적용의 필요성과 방향에 대한 일견

        許喆(Heo, Chul) 한국고전번역원 2016 民族文化 Vol.47 No.-

        1995년 국역 『조선왕조실록』을 시작으로 민간에서 시작된 고전적 전산화는 1999년과 2000년 ‘지식정보자원관리법’에 따라 역사정보통합시스템 구축이라는 국가적 사업으로 진행하여 현재까지 지속되고 있다. 주지하듯 이 구축 대상의 자료 대부분은 한자라는 문자와 한문이라는 특수한 언어로 구성되어 있는 언어자료, 곧 말뭉치이다. 언어자료의 전산화는 기본적으로 말뭉치 활용을 염두에 두어야 하며, 이 말뭉치 활용을 위해서는 언어 자료를 복사하듯 그대로만 구현하는 것에 그 목적이 있지 않다. 언어자료의 말뭉치 사업은 원시말뭉치를 넘어서 주석말뭉치, 분석말뭉치까지를 염두에 둔 설계와 내용 분석이 필요하다. 원시말뭉치를 직접 보여주는 방식뿐 아니라, 이를 활용한 새로운 적용과 응용을 거쳐 새로운 연구의 대상으로 삼을 수 있기 때문이다. 다른 나라뿐 아니라 한국에서도 세종계획에 의해 구성되는 말뭉치는 주석과 분석까지 염두에 둔 말뭉치를 구축하고 있는 반면, 역사정보통합시스템의 한문 관련 전적 전산화에 있어서는 현재도 원시말뭉치에만 머물러 있는 실정이다. 중국과 대만 등에서는 이미 언어말뭉치의 설계와 도입을 통해 이미 다양한 연구에 적용하고 있음은 주지의 사실이다. 본고에서는 언어말뭉치 자료 구축의 유용성과 다른 국가나 언어의 언어말뭉치 구축의 현황을 제시하여 고전적 고도화 사업의 새로운 방향을 제시하였다. The development of information technology leads to digitize The Veritable Record of the Joseon Dynasty in 1995, and other similar projects have continued until now. As a result, an integrated system of historical information has been built with t he promulgation of the Knowledge and Information Resources Management Act of 1999 and 2000. Most of the materials consist of literary Chinese written in Chinese characters (Hanja). This linguistic data can be called the corpus. The purpose of digitizing the corpus is to make full use of it. It is not intended to be used “as is”; so, it is necessary to build a system of analysis and annotation to take advantage of it. As well as displaying the corpus directly, these new applications can be used for new studies. These techniques have already been applied to a variety of studies based on well-known corpora in both China and Taiwan. Korea is still building its corpus of digitized text. This paper will suggest the direction to be taken by applied corpus linguistics with regard to literary Chinese texts in Korea.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼