http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
최소 완전 해쉬 함수를 위한 선택 - 순서화 - 사상 - 탐색 접근 방법
이하규(Hagyu Lee) 한국정보과학회 2000 정보과학회논문지 : 소프트웨어 및 응용 Vol.27 No.1
본 논문에서는 대규모 정적 탐색키 집합에 대한 최소 완전 해쉬 함수(MPHF: Minimal Perfect Hash Function) 생성 방법을 기술한다. 현재 MPHF 생성에서는 사상-순서화-탐색(MOS: Mapping-Ordering-Searching) 접근 방법이 널리 사용된다. 본 연구에서는 MOS 접근 방식을 개선하여, 보다 효과적으로 MPHF를 생성하기 위해 선택 단계를 새로 도입하고 순서화 단계를 사상 단계보다 먼저 수행하는 선택-순서화-사상-탐색(SOMS: Selecting-Ordering-Mapping-Searching) 접근 방법을 제안한다. 본 연구에서 제안된 MPHF 생성 알고리즘은 기대 처리 시간이 키의 수에 대해 선형적인 확률적 알고리즘이다. 실험 결과 MPHF 생성 속도가 빠르며, 해쉬 함수가 차지하는 기억 공간이 작은 것으로 나타났다. This paper describes a method of generating MPHFs(Minimal Perfect Hash Functions) for large static search key sets. The MOS(Mapping-Ordering-Searching) approach is widely used presently in MPHF generation. In this research, the MOS approach is improved and a SOMS(Selecting-Ordering-Mapping-Searching) approach is proposed, where the Selecting step is newly introduced and the Orderng step is performed before the Mapping step to generate MPHFs more effectively. The MPHF generation algorithm proposed in this research is probabilistic and the expected processing time is linear to the number of keys. Experimental results show that MPHFs are generated fast and the space needed to represent the hash functions is small.
어말-어두 공기 정보를 이용한 한국어 어휘 중의성 해소
이하규(Hagyu Lee) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.1
본 논문은 한국어 어휘 중의성 해소를 위한 통계적 접근 방법에 대해 기술하고 있다. 한국어에서는 어절별로 띄어쓰기가 이루어진다. 그리고 인접한 두 어절에 대해서는 선행 어절의 마지막 형태소인 조사, 어미 등 ‘어말’부분과 후행 어절의 첫 형태소 및 파생 접미사인 ‘어두’부분사이에 밀접한 문맥적 관련성이 있다. 본 연구에서는 이와 같은 한국어의 특성을 고려하여 어휘 확률(lexical probability)은 어절 단위로 평가하고, 문맥 확률(contextual probability)은 어말과 어두가 인접하여 함께 나타나는 통계적 정보, 즉 어말-어두 공기(co-occurrence) 정보에 기초하여 평가한다. 본 논문에서 제안된 한국어 어휘 중의성 해소 모형은 Noisy Channel 모형에서 유도된 3 가지 단순 모형을 결합한 복합 모형이다. 이들 단순 모형 중에 하나는 어휘 확률을 반영하며, 나머지 둘은 문맥 확률을 반영하고 있다. 실험 결과 제안된 접근 방법이 한국어 어휘 중의성 해소에 적합한 것으로 나타나고 있다. This paper describes a stochastic approach to Korean lexical disambiguation. Word phrases are spaced out in Korean. For two adjacent word phrases, there is close contextual relation between the tail, the last morpheme such as postpositions or endings, of the first one and the head, the first morpheme and derivational suffixes, of the second one. In consideration of these characteristics of Korean, the lexical probabilities are evaluated in terms of word phrases and the contextual probabilities are evaluated based on the tail-head co-occurrence information, the statistical information that tails and heads co-occur adjacently, in this research. The Korean lexical disambiguation model proposed in this paper is a hybrid model where 3 simple models derived from the Noisy Channel model are combined. One of the simple models reflects the lexical probabilities and the other two reflect contextual probabilities. Experimental results show that the proposed approach is appropriate for Korean lexical disambiguation.
조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법
강승식(Seung-Shik Kang),이하규(Hagyu Lee),손소현(So-Hyun Son),홍기채(Gi-Choi Hong),문병주(Byung-Joo Moon) 한국정보과학회 2001 한국정보과학회 학술발표논문집 Vol.28 No.2Ⅱ
문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만, 주제어 추출의 관점에서 영의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어ㅢ 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.