http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
나동열(Dong-Yul Ra),김윤식(Yunsik Kim),신현주(Hyun-Joo Shin),이규희(Kyu-Hee Lee),김태규(Tae-Kyu Kim),강현규(Hyun-Kyu Kang),최호섭(Ho-Seop Choe),윤화묵(Hwa-Mook Yoon) 한국콘텐츠학회 2007 한국콘텐츠학회 종합학술대회 논문집 Vol.5 No.2_1
문서분류 시스템은 수많은 문서들이 쏟아져 나오는 최근의 인터넷 사회에서 매우 중요한 도구이다. 이러한 이유로 문서분류 기술에 대하여 많은 연구가 있어 왔다. 문서 분류 시스템의 개발을 위해서는 보통 교사학습 기법이 이용되는데 이를 위해서 필수적인 것이 테스트컬렉션이다. 영어의 경우에는 여러 가지의 문서분류 테스트 컬렉션이 있어 이 분야의 기술발전에 많은 도움을 주고 있다. 그러나 한국어의 경우에는 공식적으로 공표된 문서분류 테스트컬렉션이 존재하지 않고 있다. 이려한 상황을 개선하기 위해서 우리는 문서분류 테스트컬렉션의 구축을 진행하고 있다. 본 논문에서는 이에 대한 접근 방법 및 구축 상황을 기술하고자 한다. Document categorization system is important in the intemet age in which huge number of documents are created and need to be dealt with. By this reason a lot of research has been done in this field. For the development of the system, a supervised learning method is widely used. This approach needs a test collection as a prerequisite. For the case of English, several test collections are available which provide a lot of help for developing systems and doing research. But no public test collections have been reported and are not available in the case of Korean. To improve the situation for Korean we are undergoing the construction of a Korean test collection. In this paper the approaches being used and current stage of the collection will be described.
박성완(Sung-Wan Park),나동열(Dong-Yul Ra) 한국정보과학회 2000 한국정보과학회 학술발표논문집 Vol.27 No.2Ⅱ
자연어 파싱에 많이 사용되는 Earley 파싱 알고리즘은 입력문장에 에러(error)가 있으면 즉시 종료되기 때문에 견고한(robust) 파싱을 구현하기 어렵다. 본 논문에서 우리는 Earley 파싱 알고리즘을 보다 견고한 파싱 기법으로 만드는 방법을 제안한다. Earley 파싱을 하다가 멈추면 파싱 모드를 지역적 양방향 분석으로 전환시킨다. 에러 위치 다음에 나타나는 단어를 아일랜드(island)로 정한다. 아일랜드를 지역적으로 양방향으로 확장시켜 에러 위치까지 도달하게 한 다음 에러의 종류를 파악하고 이를 복구하는 기법을 사용함으로써 견고성을 얻을 수 있다.
문장 - 질의 유사성을 이용한 웹 정보 검색의 성능 향상
박의규(Eui-Kyu Park),나동열(Dong-Yul Ra),장명길(Myung-Gil Jang) 한국정보과학회 2005 정보과학회논문지 : 소프트웨어 및 응용 Vol.32 No.5
인터넷의 발전으로 웹 상에 수많은 문서 및 정보가 존재하는 상황에서 사용자가 원하는 정보를 담은 웹 문서를 검색하여 주는 웹 정보 검색 기술은 매우 중요하게 되었다. 본 논문에서는 웹 정보 검색 시스템의 성능 향상에 효과적인 몇 가지 주요한 기술을 제안하였다. 기존 시스템들은 주로 문서와 질의의 유사도를 계산하여 이를 주요 정보로 이용하였다. 그러나 본 논문에서는 여기에서 한 걸음 더 나아가 문서 안의 각 문장들이 질의와 얼마나 유사한가를 계산하여 이를 이용하는 기법을 제안하였다. 이러한 문장-질의 유사도를 성숙된 자연어 처리 기술 없이 근사적으로 계산하는 방법을 소개하였다. 그리고 이 계산 작업은 문서 수의 증가에 선형적인 계산량의 증가를 가져 옴을 보임으로써 실용적인 대용량 시스템에서도 사용할 수 있음을 보였다. 그 다음으로 제안된 주요한 기술은 출력 문서의 순위화에 계층적인 개념을 도입하는 것이다. 이 기법을 사용함으로써 상당한 성능 향상을 이룰 수 있음을 보였다. 그 외에도 웹 문서의 특징인 하이퍼 링크 정보와 타이틀 정보를 이용하여 어느 정도의 성능 개선을 가져올 수 있음을 보였다. 이러한 기술들의 타당성을 입증하기 위해 대용량 웹 정보검색 시스템을 개발하고 실험하였다. Prosperity of Internet led to the web containing huge number of documents. Thus increasing importance is given to the web information retrieval technology that can provide users with documents that contain the right information they want. This paper proposes several techniques that are effective for the improvement of web information retrieval. Similarity between a document and the query is a major source of information exploited by conventional systems. However, we suggest a technique to make use of similarity between a sentence and the query. We introduce a technique to compute the approximate score of the sentence-query similarity even without a mature technology of natural language processing. It was shown that the amount of computation for this task is linear to the number of documents in the total collection, which implies that practical systems can make use of this technique. The next important technique proposed in this paper is to use stratification of documents in re-ranking the documents to output. It was shown that it can lead to significant improvement in performance. We furthermore showed that using hyper links, anchor texts, and titles can result in enhancement of performance. To justify the proposed techniques we developed a large scale web information retrieval system and used it for experiments.
트라이폰 기반의 백오프 바이그램 정보를 이용한 한국어 연결 숫자음 인식
김종보(Jong Bo Kim),나동열(Dong-Yul Ra) 한국정보과학회 강원지부 2007 한국정보과학회 강원지부 학술대회 논문집 Vol.1 No.1
본 논문에서는 가변자리수 한국어 연결 숫자음 인식을 위한 인식 네트워크를 구성할 때, 인접한 숫자음 사이에서 발생할 수 있는 변이음을 고려하여, 다양한 음운 변화현상이 인식 네트워크에 반영될 수 있도록 해주는 방법을 제안하였다. 우선, 인접한 숫자음 사이에서 발생할 수 있는 다양한 음운 변화 현상을 음향모델에 반영하기 위해서 단어간 트라이폰(crossword triphone)모델이 이용되어졌으며, 인접한 변이음 사이에서의 언어적 정보, 즉, 시작 변이음을 구성하는 마지막 단어간 트라이폰과 끝 변이음을 구성하는 처음 단어간 트라이폰 사이에서의 바이그램 정보를 인식 네트워크에 반영하기 위해서, 인식 단위를 기존의 음절(숫자음) 단위 대신 음향모델의 가장 하위 개념인 트라이폰 단위로 설정하고, 트라이폰 수준의 백오프 바이그램 정보를 기반으로한 백오프 바이그램 문법 네트워크(BBGN)를 구성하였다. 그리고 난 후, 가변자리수 숫자음 인식을 위해 일반적으로 사용되는 음절 단위의 유니폼 유니그램 문법네트워크(UUGN)와의 비교를 통해 제안된 방식(BBGN)에 대한 유효성을 살펴보았다. 그 결과, 제안된 방식이 숫자열 인식률에 있어서 71.35%, 개별 숫자 인식률에 있어서 94.85%의 상대적으로 좋은 인식성능을 보였으며, 인식속도에 있어서도 커다란 차이를 보이지 않는 것으로 나타났다.
김윤식(Kim, Yun Sik),나동열(Ra, Dong-Yul),한경호(Han, Kyoung Ho) 한국자료분석학회 2003 Journal of the Korean Data Analysis Society Vol.5 No.2
전자상거래는 거래가 이루어진 후의 인수한 상품과 최초의 구매를 원했던 상품간의 상품 특성이 일치할 수 있는 거래를 위해서는 판매자와 구매자의 의사교환이 분명해야 한다. 구매자는 웹상에서의 많은 상품정보를 효율적으로 수집 분석하여 최적의 상품을 선택해야 한다. 이 연구에서는 최적의 상품을 찾기 위해 구매자가 제시한 질의문을 구문분석을 통해 상품명과 특징을 키워드로 추출하여 웹 문서에서 검색된 상품정보의 유사성을 계량적으로 구현하고자 한다. Because product purchase through e-commerce does not involve face-to-face transaction, it is necessary for smooth transactions to solve the problem caused by inability of seeing the goods before purchasing. Clear communication between the seller and the purchaser is desirable and important so that the product delivered can match the one that was originally wanted. The purchaser must collect and analyze information on the products on the Web as much as possible to allow the most suitable product to be selected. To enable this best selection our approach extracts the product s name and its properties as key words through the syntactic analysis of the query. We also develop a method of computing the similarity between the query and the products in the web pages extracted.