RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        근대 국어 말뭉치 구축 현황과 개선 방안

        이래호 국어사학회 2023 국어사연구 Vol.- No.36

        본고는 21세기 세종계획 역사말뭉치와 역사자료 종합 정비 말뭉치 가운데 근대 국어 말뭉치의 현황과 문제점을 살펴보고 향후 말뭉치 구축에서 개선되어야 할 사항을 제안하는 데 목적이 있다. 21세기 세종계획에서는 265종의 문헌 약 391만 어절의 근대 국어 말뭉치를 구축하였고, 역사자료 종합 정비 사업에서는 역사말뭉치의 상당 부분을 정제하고 언해문의 경우 한문-언해문 병렬 말뭉치의 형식으로 가공하였는데 이 가운데 근대 국어 자료 말뭉치는 258종 약 351만 어절을 구축하였다. 역사자료 종합 정비 말뭉치는 이전 세종역사말뭉치의 오류들이 상당 부분 수정되었다. 그러나 근대 국어 일부 자료에서는 글자 입력의 오류, 띄어쓰기 오류, 분절 및 태깅 오류 등이 여전히 발견되는 데 향후 이러한 문제점을 개선하는 데 집중해야 할 것이다. 향후 말뭉치 구축에서 개선되어야 할 사항으로, 언간, 장서각 필사자료(소설, 실기류, 전기류 등) 등의 포함, 한자음 입력, 한문-언해문 병렬 말뭉치로의 지속적 구축, 말뭉치 텍스트에 대응하는 이미지 자료 구축과 이미지 서비스 방법에 대한 고민, 말뭉치 header에 풍부한 서지 정보와 지금까지의 연구 성과를 포함, 구축된 말뭉치의 코드 통일, 구축된 말뭉치를 잘 활용할 수 있는 검색 프로그램의 개발 등을 제안하였고, 향후 개인이 구축한 말뭉치들을 수집하여 종합화하기 위해서는 통일된 구축 형식을 정할 필요가 있음을 언급하였다.

      • KCI등재

        다국어 병렬 말뭉치의 구축과 한국어교육 연구에의 활용

        민경모 계명대학교 한국학연구원 2020 한국학논집 Vol.0 No.78

        The aim of this research is to examine the potential problems which can be encountered while constructing a multilingual parallel corpus, and to give concrete examples showing how multilingual parallel corpora can be useful in Korean language education studies. Language education studies have expressed much interest in exploring differences in the parts of a language which cause difficulties for learners from different language groups. For this reason, the contrastive linguistic methodology has been used to examine differences and similarities between the target language and the learner’s mother tongue. In the case of applicative purpose contrastive studies, objectively extracting matching pairs from the two languages is above all important. Parallel corpora are used as the primary data for extracting the matching pairs, and the issue of their construction and use has been actively discussed since the 1990s. Since parallel corpora have such an important meaning as the primary data in language studies, large scale projects to construct parallel corpora were conducted in each country, and in Korea a great number of parallel corpora was constructed through the Sejong Project. Yet, when it comes to the parallel corpora constructed until now, the majority of them were parallel corpora of only two languages, and the target languages were mostly limited only to major languages. In particular, there has been no parallel corpus in Korea which included more than 3 languages, and the target languages have been extremely limited to languages such as English, Chinese, Japanese, French, German, etc. If we examine the problem of constructing parallel corpora from a contrastive studies perspective with Korean education in mind, the existing parallel corpora, with the exception of Chinese, have no relation to the mother tongues of the main Korean learners groups at the moment. Since the contrastive studies for Korean language education have a prerequisite of promoting understanding between the mother tongues of the learners, there is a need for constructing parallel corpora of Korean and mother tongues of the learners. Moreover, there is also a need to gather the primary data for contrastive studies on the types of languages by constructing multilingual parallel corpora of not only two, but also three or more languages. The discussion on constructing multilingual parallel corpora of three and more languages and constructing parallel corpora of minority languages is dealt with in this presentation for the first time in Korea. In this research, we construct experimental multilingual parallel corpora of Korean and English, Vietnamese, Uzbek, Thai, and Sinhalese, and also examine the problems of constructing multilingual parallel corpora centred around Korean. We examine the problems of data selection, hub languages, character codes, and example search which emerge in the construction of multilingual parallel corpora of minor languages. We also look into concrete examples on how to extract matching pairs of vocabulary to apply in parallel corpora by using a multilingual example search tool, which is being currently developed. 이 연구는 다국어 병렬 말뭉치를 구축하고자 할 때 발생하는 문제를 살피고, 한국어교육 연구에서 다국어 병렬 말뭉치가 유용하게 활용될 수 있음을 실례를 들어 보이는 데 그 목적이 있다. 언어교육 연구에서는 학습자가 어려워하는 학습 항목의 언어권별 차이를 밝히는 데 많은 관심을 기울여 왔다. 이를 위한 한 방편으로 목표 언어와 학습자 모어 간의 차이점과 유사점을 살피는 대조언어학적 방법론이 유용하게 활용되고 있는데, 응용적 목적의 대조 연구에서는 우선적으로 언어 간 대응쌍을 객관적으로 추출하는 것이 중요하다. 병렬 말뭉치는 언어 간 대응쌍 추출에 이용되는 기초 자료로, 구축 및 이용의 문제가 1990년대부터 활발히 논의되어 왔다. 병렬 말뭉치는 언어교육을 위한 기초 자료라는 측면에서 중요한 의미를 지니기에 세계 각국에서는 대규모의 병렬 말뭉치 구축 사업을 실시하였고, 국내에서도 세종계획을 통하여 상당량의 병렬 말뭉치를 구축하였다. 그러나 지금까지 구축된 병렬 말뭉치는 두 언어 간 병렬 말뭉치가 주를 이루고, 구축 대상 언어도 주요 언어에 국한되어 있다. 특히 국내에서는 세 언어 이상의 병렬 말뭉치, 즉 다국어 병렬 말뭉치가 아직까지 구축된 바 없으며, 구축 대상 언어도 영어, 중국어, 일본어, 프랑스어, 독일어 등 극히 한정된 언어에 머물러 있다. 한국어교육을 위한 대조 연구에 초점을 두어 병렬 말뭉치의 구축 문제를 살펴보면, 지금까지 구축된 병렬 말뭉치는 중국어를 제외하고는 현재의 주요 한국어 학습자 층의 모어와는 괴리된 측면이 있다. 한국어교육을 위한 대조 연구는 학습자 및 학습자 모어의 이해를 도모한다는 대전제가 있기에 한국어와 한국어 학습자 모어 간 병렬 말뭉치 구축이 요구된다. 또한 두 언어 간 병렬 말뭉치가 아닌 세 언어 이상의 다국어 병렬 말뭉치 구축을 통하여 언어 유형에 기반한 대조 연구의 기초 자료를 확보할 필요성도 제기된다. 이 연구에서 다루는 세 언어 이상의 다국어 병렬 말뭉치 구축 논의나 소수 언어를 대상으로 한 병렬 말뭉치 구축 논의는 국내에서 처음으로 이루어지는 것이다. 여기에서는 한국어와 영어, 베트남어, 우즈베크어, 태국어, 신할리즈어 간 다국어 병렬 말뭉치를 시험적으로 구축하고, 한국어를 중심 언어로 하는 다국어 병렬 말뭉치 구축의 문제를 살펴본다. 이어서 언어 간 대응쌍 추출의 예를 통하여 다국어 병렬 말뭉치가 한국어교육을 위한 기초 자료로서 유용하게 쓰일 수 있음을 보이고자 한다. 다국어 병렬 말뭉치의 구축 문제에서는 소수 언어를 병렬 말뭉치로 구축할 때 발생하는 자료 선택의 문제, 연계 언어의 문제, 문자 코드의 문제, 용례 검색의 문제를 살피고, 다국어 병렬 말뭉치의 활용에서는 개발하고 있는 다국어 용례 검색기를 통하여 언어 간 대응쌍을 어떻게 추출할 수 있는지를 실례를 들어 보일 것이다.

      • KCI등재

        생략어 복원 말뭉치 구축과 활용 방안

        이숙의 어문연구학회 2023 어문연구 Vol.115 No.-

        This paper introduces a Zero Anaphora Resolution corpus and describes the construction and using of the corpus. The Zero Anaphora Resolution is built to improve understanding of natural language contexts, while the terminology is still unclear. The Zero Anaphora Resolution is useful for finding the rationale for extracting the correct answer in the automatic question and answer system. However, the construction method needs to be different depending on the purpose of use. In this paper, Wikipedia articles about ‘the president of Korea and sports’ were constructed as a corpus. If the encyclopedia document includes 'NP-이다(VNP)' as a predicate that needs to be restored, the accuracy of the automatic question and answer system can be increased. Wikipedia articles have many passive sentences. In this regard, it is necessary to focus on the resolution of the subject, not the resolution of the object. In the zero anaphora resolution of direct quotation, the headword or clear noun phrase that is the evidence sentence for the correct answer should be restored without focusing on the point of grammatical agreement. Through this, it is necessary to construct a specific corpus according to the purpose of use. The Zero Anaphora Resolution Corpus is very useful for analyzing information about core vocabulary or semantic networks of vocabulary used in text. The advantage of using the corpus is that it is possible to closely grasp the structural analysis of literary works with many characters, the shifting of topics, and the relationship between characters. If there is this kind of sample corpus, it will be possible to use it as an educational material on omission of subject and subject words of discourse. 본고에서는 국어학 분야에서 잘 사용되지 않는 생략어 복원 말뭉치를 소개하고 전산학 분야와 인문학 분야에서 생략어 복원 말뭉치 구축에 고려해야 할 사항과 활용 방안을 제안하였다. 생략어 복원 말뭉치의 내용과 필요성, 형태를 소개하고, 소규모 생략어 복원 말뭉치를 구축하였다. 자동질의응답기술에서의 생략어 말뭉치의 필요성과 담화 내 정보 추출에 사용되는 언어정보 활용을 위한 지침의 개선 방안을 제시하였고, 언어 연구에서 텍스트 분석 과정에 생략어 복원 말뭉치를 활용하는 방안을 제시하였다. 특히 4장에서는 목적에 따라 말뭉치의 구축 형태와 적용하는 문법 사항이 달라져야 함을 강조하였다. 백과사전 말뭉치 생략어 복원에서는 ‘-이다’ 구문에서 지정사를 복원 대상 술어로 설정하면 자동 질의에 대한 정답 추론이 가능한 근거 문장 찾기의 정확성을 높일 수 있다는 점을 제시하였다. 또 직접 인용문의 생략어 복원에는 인칭 일치를 통한 자연스러운 문장 구축에 초점을 둘 것이 아니라 정답의 근거가 되는 표제어나 선행 문장의 명시적 명사구를 복원해야 함을 제안하였다. 생략어 복원 말뭉치를 적용한 인문학 언어분석 연구가 거의 없다는 점에서 사람이 이해할 수 있는 말뭉치 형태가 필요하다. 생략어 복원 말뭉치를 언어 연구에 유용하게 활용하는 방안을 모색하고 사용의 효용성을 높이기 위해 제고해야 할 점을 제시한다는 점에 연구의 의의를 둔다.

      • KCI등재

        PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구

        김재훈,박은진,Kim Jae-Hoon,Park Eun-Jin 한국정보처리학회 2006 정보처리학회논문지B Vol.13 No.1

        말뭉치(corpus)는 많은 언어 정보를 포함하고 있으며, 언어처리 및 계산언어학 분야에서 다양한 용도로 사용되고 있다. 그러나 말뭉치에 언어 정보를 부착하는 데는 많은 시간과 인력이 소요된다. 이 문제를 완화시키기 위해서 말뭉치 구축 도구가 반드시 요구된다. 본 논문에서는 한국어 의존구조 부착을 위한 말뭉치 구축 도구의 설계 및 구현에 관해서 기술한다. 가장 이상적인 방법은 주석자가 전혀 개입하지 않고, 말뭉치를 구축하는 것이나 이것은 사실상 불가능하다. 따라서 대부분의 말뭉치 구축 도구는 반자동으로 구성되어 있으며, 본 논문에서 제안된 도구도 반자동이다. 제안된 도구는 언어 분석기의 분석 결과에 내포된 오류를 효과적으로 수정할 수 있고, 또한 가능한 한 반복적인 작업을 피할 수 있으며 쉽게 사용할 수 있도록 인터페이스를 설계하였다. 제안된 시스템을 이용해서 20어절 이상의 1만 문장에 의존구조를 부착해 보았다. 잘 훈련된 8명의 주석자들이 매일 4시간씩 2개월 동안 구축하였으며, 그 결과는 정확하고 일관성 있는 말뭉치를 구축할 수 있었으며, 작업 시간과 인력도 크게 줄일 수 있었다. In general, a corpus contains lots of linguistic information and is widely used in the field of natural language processing and computational linguistics. The creation of such the corpus, however, is an expensive, labor-intensive and time-consuming work. To alleviate this problem, annotation tools to build corpora with much linguistic information is indispensable. In this paper, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. The most ideal way is to fully automatically create the corpus without annotators' interventions, but as a matter of fact, it is impossible. The proposed tool is semi-automatic like most other annotation tools and is designed to edit errors, which are generated by basic analyzers like part-of-speech tagger and (partial) parser. We also design it to avoid repetitive works while editing the errors and to use it easily and friendly. Using the proposed annotation tool, 10,000 Korean sentences containing over 20 words are annotated with dependency structures. For 2 months, eight annotators have worked every 4 hours a day. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

      • KCI등재

        문화유산정보 말뭉치 구축을 위한 개체명 및 이벤트 부착 도구

        최지예(Ji-Ye Choi),김명근(Myung-Keun Kim),박소영(So-Young Park) 한국컴퓨터정보학회 2012 韓國컴퓨터情報學會論文誌 Vol.17 No.9

        본 논문에서는 문화유산정보 말뭉치 구축을 위한 개체명 및 이벤트 부착 도구를 제안한다. 제안하는 도구를 이용하여 말뭉치 구축자는 문화유산정보 관리에 유용한 시간, 장소, 인물, 사건을 중심으로 개체명과 이벤트를 부착할 수 있다. 이 때, 개체명과 이벤트 부착이 용이하도록, 제안하는 도구에서 줄번호나 어절번호와 같은 개체명이나 이벤트의 위치정보를 자동으로 부착하며, 구축된 개체명이나 이벤트 중에서 하나를 선택하면 해당 문자열을 원문에서 진한 이탤릭체로 표시하여 올바르게 부착되었는지 쉽게 확인할 수 있다. 그리고, 제안하는 도구는 말뭉치 구축자의 수작업을 줄이기 위해서 개체명 자동인식 패턴을 활용한다. 학습말뭉치가 거의 없다는 점을 고려하여 단순한 규칙 패턴을 학습한다. 또한, 오류 전파를 차단하기 위해서, 제안하는 개체명 자동인식 패턴은 개체명 부착 말뭉치에서 추가적인 분석처리 없이 바로 추출한다. 실험결과 제안하는 개체명 및 이벤트 부착 도구는 말뭉치 구축자의 수작업량을 절반이상 줄여주었다. In this paper, we propose a named entity and event annotation tool for cultural heritage information corpus construction. Focusing on time, location, person, and event suitable for cultural heritage information management, the annotator writes the named entities and events with the proposed tool. In order to easily annotate the named entities and the events, the proposed tool automatically annotates the location information such as the line number or the word number, and shows the corresponding string, formatted as both bold and italic, in the raw text. For the purpose of reducing the costs of the manual annotation, the proposed tool utilizes the patterns to automatically recognize the named entities. Considering the very little training corpus, the proposed tool extracts simple rule patterns. To avoid error propagation, the proposed patterns are extracted from the raw text without any additional process. Experimental results show that the proposed tool reduces more than half of the manual annotation costs.

      • KCI등재

        국회회의록 형태 주석 말뭉치의 구축 과정과 형태 사용 빈도 분석

        정해윤,김지영,김교연 연세대학교 언어정보연구원 2023 언어사실과 관점 Vol.58 No.-

        이 연구는 국회회의록 형태 주석 말뭉치의 구축 과정을 소개하고 구축된 말뭉치의 형태소 사용 빈도를 밝히는 것을 목적으로 한다. 이 연구에서 구축한 국회회의록 형태 주석 말뭉치는 1940년대부터 2010년대까지 총 189회차 회의록으로 이루어진 말뭉치 언어 자료로서 총 1,037,435 어절로 구성되었다. 품사 범주별로 고빈도 형태소 상위 40위를 살피고 서상규(2015) 한국어 구어 빈도 사전1(잦기순) 과의 비교를 통해 국회회의록 말뭉치 또한 구어 자료로서 일반적인 구어 자료와 유사한 성격을 지니기는 하지만 ‘국회 회의’라는 특수 맥락과 공적 대화의 특성이 더 부각된 자료라는 점에서 몇몇 차이가 있음을 확인하였다.

      • KCI우수등재

        한국어 중첩 개체명의 말뭉치 구축 연구

        정유남,송영숙,유현조 국어학회 2023 국어학 Vol.- No.105

        본 논문은 한국어 개체명 말뭉치의 구축 방법을 논의하고 실제로 중첩 주석을수행하여 완성된 말뭉치를 소개하는 것을 목적으로 한다. 이 연구에서는 개방형데이터인 한국어 자연어 이해 평가(KLUE) 데이터 세트 중 개체명 말뭉치의 원시문장에 150개의 개체명 분류 표지를 주석하여 한국어 세분류 개체명 말뭉치(KONEC)를 구축하는 실증적 연구를 수행하였다. 이를 바탕으로 한국어 중첩 개체명 주석을 위한 방법론을 제안하고 실제 주석을 수행하여 한국어 중첩 개체명말뭉치(KONNE)를 구축하였다. 중첩 개체명 주석은 개체명을 계층적 내부 구조를 가진 요소로 분석하는 것으로, 기존의 나열식 주석에 비해 언어학적 정보를풍부하게 표현할 수 있으며 체계적이고 일관성 있는 주석이 가능하다는 장점이있다. 본 논문은 한국어에서 아직 시도되지 않은 중첩 개체명 주석의 방법론을제안하고 실제로 개체명 말뭉치를 구축하는 전 과정을 수행하여 실증적으로 제안된 방법을 검토하고 그 결과 얻어지는 한국어 개체명 주석의 특성을 살펴보았다는 데에 의의가 있다. 또한 본 연구를 통해 생성된 자료를 자유롭게 사용, 수정, 재배포가 가능한 개방형 데이터로 공개하여 한국어 개체명 연구를 위한 공공의토대를 만드는 데에 기여했다.

      • KCI등재

        말뭉치 기반 한국어 연구의 현황과 전망

        김한샘 한국어학회 2019 한국어학 Vol.83 No.-

        This paper aims to understand the present state of corpus-based Korean language research and to forecast the future. As a result of applying the network analysis methodology to the title and keywords of the corpus-based research, it was analyzed as three main areas including the Korean education area, the 21st Century Sejong Corpus area, and corpus area related main concepts in corpus linguistics. Corpus-based Korean language research has been accumulated in consideration of characteristics of Korean language and Korean corpus in terms of corpus building, corpus annotation, and corpus information extraction. From now on, the research on various registers and genres should be activated, and the corpus-based research can be broadened by inducing the combination of data-based social science and linguistics. It is necessary to activate multilingual resource construction and research. As the importance of semantics for artificial intelligence has increased, attention to the meaning representation of Korean is needed.

      • KCI등재
      • KCI등재

        유사 문장 말뭉치 분석을 통한 유사도 인식에 관한 연구

        이숙의(Lee Suk-eui) 어문연구학회 2021 어문연구 Vol.108 No.-

        본고에서는 유사 문장 말뭉치를 대상으로 자동시스템과 사람의 유사도 인식 결과를 대조·분석하였다. 자동시스템과 사람의 유사도 인식 불일치 결과를 주로 다뤘는데, 그 이유는 이러한 연구를 통해 컴퓨터와 인간이 문장을 이해 하는 방식이 서로 어떻게 다른가를 보기 위함이었다. 이러한 연구는 추후 구축될 유사 문장 말뭉치와 유사 문장 자동처리시스템 개발에 활용할 수 있다. 본 연구는 한국전자통신연구원의 유사 문장 학습 데이터 구축 결과를 활용하였고, 구축 과정에 적용한 유사도 판단을 위한 기준에 관한 검토를 진행하였다. 6개 구간의 점수대로 유사도 문장 쌍의 점수 값을 부여하였고, 3점 이상의 문장은 유사 문장에 해당된다. 주로 유사 문장의 경계에 놓인 문장 쌍들이 컴퓨터와 인간의 유사도 판단의 차이가 있는 지점임을 알 수 있었다. 자동시스템에서는 유사 문장으로 판단하지만 사람은 유사 문장이 아니라고 판단 한 예들을 중심으로 살펴 보았다. 이 결과를 통해 기초 작업에서 모호성이 짙었던 유사도 판단 기준을 구체화 하였으며, 이를 추후 연구에 반영하고자 한다. This paper analyzed the corpus of similar sentences and compared the results of the computer system and manual work. In order to analyze how computers and humans understand the meaning of sentences differently, the results of inconsistency between humans and automatic systems for recognizing similarity were mainly analyzed. This paper utilized the results of constructing similar sentences learning data of the Electronics and Telecommunications Research Institute(ETRI). Here, the similarity criteria applied in the process of constructing language data for the ETRI project were reviewed. A similarity score was given by dividing into 6 sections, and sentences with a score of 3 or more are similar sentences. In Chapter 2, the definition of linguistic similar sentences was presented, and similar sentences types were classified. In addition, sentences surveyed in the actual corpus were also presented. Chapter 3 introduced the process of constructing a corpus of similar sentences. the results of corpus construction were used in this study. In Chapter 4, an example of inconsistency between the results of the automatic system and manual work was analyzed. In addition, I tried to reveal the difference between the automatic system that operates based on rules and the way humans understand sentences. It is hoped that the results of these studies will be utilized in the future development of the automatic processing system for similar sentences and the direction of corpus construction.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼