http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
한국학 서지정보와 전자텍스트를 위한 자동색인 및 검색시스템 개발 연구
임해창,윤보현,강승식 한국어전산학회 1998 한국어전산학 Vol.2 No.-
한국학 서지 정보에는 사람 이름이나 전문 용어와 같은 미등록어가 많이 발생하므로 이를 적절히 처리하지 않고서는 검색 시스템의 성능을 향상시키기 어렵다. 아울러 서지 정보에는 자유스러운 복합 명사 띄어쓰기 규약과 하나의 명사구에 대한 다양한 형태로 인하여 색인어와 질의어간에 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색 성능을 증가시키기 어렵다. 따라서 본 논문에서는 미등록어를 적절히 처리하며 색인어와 질의어의 형태상의 불일치를 완화하고자 확장된 한국어 정보 검색 모델을 제안한다. 이 모델에서는 통계 정보와 선호 규칙을 이용하여 복합 명사를 분해하고, 인접 제약에 의해 단위 명사나 단일 명사로부터 복합 명사를 합성한다. 그리고 합성된 복합 명사중에서 상호 정보와 카테고리 쌍간의 상대 빈도를 이용하여 의미없는 복합 명사를 필터링한다. 게다가 복합 명사에 대해 부분 일치를 고려하는 유사도 계산 방법을 이용한다. 제안된 방법을 『한국도서해제』와 『한국논저해제』에서 추출한 단행본 2,400종으로 실험한 결과, 제안한 방법이 색인어와 질의어의 형태상의 차이를 충분히 극복할 수 있음을 보인다.
문화원형 콘텐츠의 OSMU 변환을 위한 개발 프로세스 개선 모델에 관한 연구
임해창(Hae-Chang Lim),박원용(Won-yong Park) 한국멀티미디어학회 2006 한국멀티미디어학회 학술발표논문집 Vol.2006 No.2
콘텐츠를 하나의 소스를 통한 다양하게 활용하는 기능형 콘텐츠로 개발하는 OSMU(One Source Multi Use)는 콘텐츠 산업의 발달에 따라 국내에서 중요성이 크게 부각되었으나 생산을 위한 프로세스는 정립되지 않았다. 본 논문에서는 한국 문화원형을 기반으로 한 문화 콘텐츠 개발로 범위를 좁혀 상세화하고, 그에 대한 모델을 실제 산업에 적용할 수 있는 범위까지 확장하여 제시함으로써 대상을 어떻게 분석 하고 체계화하여 디지털화 하며, 부분적으로 개별화된 콘텐츠들을 어떻게 통합하는 지에 대한 구체적인 사례를 제시하였다. 또한 이에 대한 타당성을 기존 과제 수행자들을 대상으로 한 설문조사를 통하여 확인하였다. 마지막으로 제안된 새로운 프로세스를 한국 무예의 원형 및 무과시험 복원을 통한 디지털 콘텐츠 개발에 적용하여 실제 원소스 멀티유즈 콘텐츠 생산에 마치는 프로세스의 효과에 대해 살펴보았다.
김상범,임해창 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.3
단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다. Though naive Bayes text classifiers are widely used because of its simplicity, the techniques for improving performances of these classifiers have been rarely studied. In this paper, we propose and evaluate some general and effective techniques for improving performance of the naive Bayes text classifier. We suggest document model based parameter estimation and document length normalization to alleviate the Problems in the traditional multinomial approach for text classification. In addition, Mutual-Information-weighted naive Bayes text classifier is proposed to increase the effect of highly informative words. Our techniques are evaluated on the Reuters21578 and 20 Newsgroups collections, and significant improvements are obtained over the existing multinomial naive Bayes approach.