        인문 콘텐츠의 한자어 오류 검출 방법 연구

        임준근(Lim, Jun-Geun) 인문콘텐츠학회 2013 인문콘텐츠 Vol.0 No.28

        우리나라는 중국, 일본과 함께 ‘한자문화권’에 속해 있기 때문에 인문 콘텐츠에는 많은 한자어가 포함되어 있다. 인터넷에 유통되는 콘텐츠에도 많은 한자어가 있다. 한자어는 중의성을 해소하여 의미를 분명히 하거나 인명, 지명 등의 식별성을 높이는데 필수적이다. 그러나 콘텐츠 생산 또는 가공 단계에서 발생한 많은 한자어 오류들이 그대로 유통되고 있다. 인터넷의 활성화로 최근 일반 이용자들이 생산하여 유통하는 콘텐츠도 급격히 증가하고 있다. ‘복사하여 붙이기(copy and paste)’를 통하여 쉽게 생산할 수 있기 때문이다. 이로 인해 한자어 오류는 더 빠르고 넓게 전파된다. 따라서 인문 콘텐츠를 생산하고 유통할 때는 이러한 오류를 바로잡기 위한 노력이 필수적이다. 이 글에서는 한국학중앙연구원에서 구축한 『한국민족문화대백과사전』, 『한국향토문화전자대전』, 『조선왕조실록 전문사전』 콘텐츠를 중심으로 한자어 오류 검증방법을 살펴본다. 또한 민간 포털의 Open-API를 이용하여 인터넷 상에 유통되는 소량의 데이터를 추출하여 분석하였다. 먼저 출현하는 한자어를 분석하여 오류의 유형을 정리하였다. 그리고 오류의 유형에 따른 검증 방법을 연구하였다. 형태 오류를 판단하기 위하여 ① 한자-한글 음가표 기반 검증, ② 정답과 오류 한자어 사전 기반 검증, ③ 문서 간 한자어 상호비교 기반 검증 방법을 제시한다. 형태적인 오류가 없는 경우 문서 또는 문단 문맥에 함께 출현하는 한자어의 공기(co-occurrence) 한자어 말뭉치(corpus)를 구축하고 이를 적용하여 의미적인 오류를 검증하고 콘텐츠의 품질을 높이는 방안을 제안하였다. There are many Sino-Korean words(漢字語) in humanities contents because Korea belongs to the East Asian kanji(漢字) cultural area including Japan and China. A Sino-Korean word is essential to clearly resolve the ambiguity of the korean words. However many misspelled Sino-Korean words are being created and distributed. Even the academic or research contents have too many misspelled Sino-Korean words. Because they are created through ‘copy and paste’ from the existing contents. Therefore it is urgent to correct the errors like this. For this purpose, I analysed the Sino-Korean words in “Encyclopedia of Korean Culture”(韓國民族文化大百科事典), “Encyclopedia of Korean Local Culture”(韓國鄕土文化電子大典), “Encyclopedia of The Annals of the Joseon Dynasty”(朝鮮王朝實錄專門事典) which were compiled by the Academy of Korean Studies and found a way to verify the misspelled Sino-Korean. And I analyzed a small amount of contents in portal site using its Open-API in the same way. This study will help us improve the accuracy of contents.

        디지털 향토문화 콘텐츠를 위한 XML 기반의 아카이브 시스템에 관한 연구

        김수영(Kim Su-Young),임준근(Lim Jun-Keun) 인문콘텐츠학회 2009 인문콘텐츠 Vol.0 No.15

        아카이브(Archive)란 정부나 관공서, 기타 조직체의 공문서와 사문서를 소장, 보관하는 문서국 또는 기록보관소를 의미하는 말이다. 다시 말해, 디지털 아카이브는 시간의 경과에 의해 질이 떨어지거나 흩어져 일부가 없어질 우려가 있는 정보들을 디지털화함으로써 항구적인 기록과 보존, 이용 등을 가능하게 하는 시스템을 일컫는다. 디지털 아카이브는 소장품이나 자료 등을 디지털 정보로 바꾸어 보관하며, 자료 간의 관련을 유지하고 관리하는 데이터베이스(Database)의 일종이기도 하다. 본 연구에서는 『한국향토문화전자대전』의 편찬과정에서 산출된 텍스트자료를 포함한 많은 디지털 콘텐츠들을 어떻게 효과적으로 기록, 보존할 것인가에 대한 해결책으로서 XML을 기반으로 한 디지털 아카이브 시스템을 설계 구현하였다. 이는 공공의 지적 자산으로 활용하기 위해서도 반드시 필요하며, 이러한 아카이브의 구축은 단순한 연구 자료의 집성에 대한 목적에서뿐만이 아니라 향토문화 진흥의 목적에서도 필요하다. 또한 한국의 유수한 문화유산을 기록한 디지털 콘텐츠들을 아카이브를 통해 제공함으로써 지역의 향토 문화 사업을 활성화하는 효과를 가져 올 수 있을 것이다. 위와 같은 이유로 이 논문에서는 한국학중앙연구원에서 수행하고 있는 『한국향토 문화전자대전』의 과정에서 수집되고 생산되는 기초자료들을 활성화할 도구인 ‘디지털 아카이브 시스템’으로 다양한 디지털 콘텐츠들을 수집, 정리, 재사용 및 서비스에 이용하는 표준적인 구조의 제시와 발전방안 모색을 목표로 한다. An archive is a collection of historical records, and the location in which the collection is kept. Archives contain records (primary source documents) which have been accumulated over the course of an individual or organization's lifetime. In other words, digital archive in compliance with the lapse of time the quality falls, or, scatters, with digitalizing causes concerns on the possibility of losing the system which records, preserves, uses, and etc. Digital archive keep the digital information in which data and possession were changed. The purpose of this study is to develop methods for enhancing the XML-based digital archive system used for 'The Encyclopedia of Korean Local Culture.' The study investigates issues on the XML based archive system for digital contents currently underway, on the basic case study, to determine the most effective ways of improving the process. As intellectual asset, "these building up archives" is necessary for collecting fundamental research material and advancing local culture. Furthermore, it is expected to enrich local culture served with excellent Archives. Archives are composed with excellent Korean digital record. For this reason, it aims that implementing and building up the standard structure of Digital Archive System is consisted of researching material on 'The Encyclopedia of Korean Local Culture'. Additionally, a digital archive system in based xml technologies proposed in this paper would be a new direction of future archive system.

        GIS와 지역 문화 콘텐츠의 연계 응용 기술

        김현(Kim Hyeon),임준근(Lim Jun-Geun) 인문콘텐츠학회 2009 인문콘텐츠 Vol.0 No.16

        지방의 문화 자원을 소재로 하는 지역 문화 콘텐츠는 일정한 범위의 지리적 공간과 밀접한 연관성을 가지고 있다. 그 공간적 개념들을 지리적 위치로 구체화하고, 그것을 지도 도면 위에서 찾을 수 있게 하는 것은 내용 찾기의 편리성을 증대시키는 것뿐 아니라, 그 지식 정보의 공간성을 시각적으로 확인하게 함으로써 내용을 보다 충실하게 이해할 수 있게 한다. 최근 들어 디지털 콘텐츠 제작자가 자신의 저작물을 위해 전자지도 데이터를 특별히 구매하거나 제작하지 않아도, 인터넷 포털이 제공하는 전자지도 서비스를 통하여 고품질의 온라인 전자지도를 자신의 디지털 콘텐츠 상에서 연결해서 서비스할 수 있는 환경이 조성되었다. 이 연구는 한국의 지역 문화를 연구하는 사람들이 그와 같은 기술 환경 하에서 지역문화 지식 콘텐츠와 지리정보시스템을 효과적으로 연계?활용할 수 있도록 하는 방안을 제시하기 위한 것이다. The Encyclopedia of Local Korean Culture, as its name clearly suggests, is a collection of cultural knowledge classified according to each region of Korea. A close connection between the geographical region and the cultural content is inevitable. Locating the region that is related to a piece of local cultural information on a map not only serves as an effective searching method, but also helps profound understanding of the given information by visually solidifying the related regional concept. Recently a creator of any digital content on the web is able to link his content with existing on-line electronic map, without needing to purchase or develop his own electronic map data. With help of such technological advancement, very useful activities such as marking an individual’s point of interest(POI) on the electronic map, or realizing the integration of the local culture knowledge and its geographical visualization through the map, becomes possible through minor efforts such as calling API(Application Programming Interface) functions provided by major portal services. Following study targets the researchers who study Korean local culture from the perspective of human geography, in an attempt to present them with an effective way to integrate local culture content with geographical information system.

