http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
안동언,강인호,An, Dong-Un,Kang, In-Ho 한국과학기술정보연구원 과학기술정보센터 2003 Journal of Information Science Theory and Practice Vol.34 No.2
인터넷의 발달로 인해 웹에서 얻을 수 있는 정보의 종류와 수는 급진적으로 증가하고 있다. 기존의 문서 위주의 구성에서 멀티미디어 서비스, 쇼핑몰 등 종류와 매체에 있어서 다양한 변화를 보이고 있다. 이에 따라 사용자가 요구하는 정보의 단위는 문서 뿐만 아니라, 사이트 그리고 서비스 단위로 확장되고 있다. 웹 환경에서 사용자의 정보 요구를 보면 크게 세가지로 볼 수 있다. 첫째는 원하는 정보를 설명하는 혹은 정보와 관련된 문서를 찾는 내용검색, 둘째는 사용자가 관심 있어 하는 개인이나 단체의 사이트 입구를 찾는 사이트 검색, 셋째는 사용자가 관심 있어 하는 서비스를 제공하는 웹 페이지를 찾는 서비스 검색을 들 수 있다. 본 논문에서는 이러한 사용자의 정보 요구 목적에 따라서 문서 순위화가 달라져야 함을 보인다. 지금까지 정보 검색에서 언급된 내용 정보, 링크 정보 그리고 URL 정보의 유용함을 사용자의 정보 요구 형태에 따라서 분류한다. 내용 검색에서는 내용 정보가 유용한 반면 링크 정보와 URL 정보를 결합할 경우 성능의 저하를 초래했다. 반면 사이트 검색에서는 내용 정보만 쓰는 것 보다는 링크 정보와 URL 정보를 결합할 경우 성능의 향상을 얻을 수 있었다. The Web is rich with various sources of information. It contains the contents of documents, multimedia data, shopping materials and so on. Due to the massive and heterogeneous web document collections, users want to find various types of target pages. We can classify user queries as three categories according to users'intent, content search, the site search, and the service search. In this paper, we present that different strategies are needed to meet the need of a user. Also we show the properties of content information, link information and URL information according to the class of a user query. In the content search, content information showed the good result. However, we lost the performance by combining link information and URL information. In the site search, we could increase the performance by combining link information and URL information.
안동언(Dong Un An) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.1
본 논문에서는 기계번역 시스템의 한국어 생성에서 양상자질로부터 어떻게 보조용언을 생성할것인가를 다룬다. 보조용언들은 한국어 술어를 형성하기 위하여 본용언에 한국어 특유의 순서로 결합된다. 이 순서는 수학적으로 선형 순서이거나 부분 순서가 아니다. 또한 양상자질에서 보조용언을 표충화하기 위해서 한국어 생성기는 서로 비슷한 의미를 가진 여러 보조용언들 중에서 가장 자연스러운 것을 선택하여야 한다. 이러한 문제점을 해결하기 위해서 말뭉치를 분석하여 양상과 보조용언에 관한 신뢰성 있는 언어 지식을 얻어, 이를 이용하는 말뭉치 기반의 보조용언 생성을 제안한다. 첫째, 말뭉치를 분석하여 의미와 기능에 따라서 보조용언을 분류한다. 둘째, 각 양상에 대한 대표 보조용언을 말뭉치의 빈도수를 기반으로 선택한다. 셋째, 보조용언들간의 순서 관계에서 휴리스틱을 사용하여 부분 순서로 바꾸고 위상 정렬에 의해서 최대한 실제 순서 정보에 접근하는 선형 보조용언 어순을 얻는다. 마지막으로, 실험 및 평가를 통해서 말뭉치를 기반으로 하는 보조용언의 생성이 보조용언 어순의 정확성과 생성된 대표 보조용언의 자연스러움을 가져오는 것을 보인다. This paper presents how to generate auxiliary verbs from modality features in a Korean generation of machine translation system. To form a complete predicate, auxiliary verbs are concatenated together with a main-verb stem, being arranged in the Korean-specific order, which is neither a linear order nor a partial order mathematically. To lexicalize an auxiliary verb from a modality feature, the Korean synthesizer must choose the best one among several different auxiliary verb candidates whose meanings are very similar to one another. To cope with these difficulties, a corpus-based auxiliary verb generation is suggested, where a large corpus is analyzed to acquire reliable linguistic knowledge on auxiliary verbs and modalities. Through the corpus analysis, firstly, auxiliary verbs are classified into modality groups according to their meanings and grammatical functions. Secondly, the representative for each modality group is selected on the basis of frequency in the corpus. Thirdly, the corpus-based ordering relations among auxiliary verbs are transformed into a partial ordering by using several kinds of heuristics, and then through the topological sorting we derive a linear auxiliary verb order covering as much actual ordering information as possible. Finally, by experiment and performance evaluation, we show that the corpus-based auxiliary verb generation may be a great help in generating correct auxiliary verb order and natural auxiliary verb.
안동언(Dong un An),이영우(Young Woo Lee),서진원(Jin Won Seo),정성종(Sung Jong Chung) 한국정보과학회 1998 한국정보과학회 학술발표논문집 Vol.25 No.2Ⅱ
여러 언어들로 작성된 웹문서들을 다국어 기계번역기에서 번역하기 위해서는 우선 해당 웹문서가 어떠한 언어로 작성되었는지를 알아내야 한다. 코드 분석을 통하여 웹문서를 작성한 언어를 알게 되면 해당 언어를 번역하는 기계번역기를 작동시킬 수 있다. 또한, 웹문서에서 기계번역의 대상은 HTML 태그를 제외한 일반 문장이다. 따라서, 웹용 기계번역의 전처리기에서 웹문서에서 HTML 태그를 분리하여야 하며 번역이 완료된 후 번역된 문서에 HTML 태그를 복원하여 웹브라우저에서 번역된 문서를 볼 수 있어야 한다. 본 논문에서는 웹용 다국어 기계번역을 위한 전처리기의 태그관리기와 코드인식기를 설명한다.
안동언(Dong Un An) 한국정보과학회 1995 한국정보과학회 학술발표논문집 Vol.22 No.1
본 논문에서는 기계번역 시스템의 한국어 생성에서 양상자질로부터 어떻게 보조용언을 생성할 것인가를 다룬다. 보조용언을 생성하기 위해서는 세 가지를 고려하여야 한다. 첫째, 양상자질에 대응되는 보조용언을 기능과 의미에 따라 분류하여야 한다. 둘째, 각 보조용언의 분류에 대해 생성되는 대표 보조용언 표층어를 결정하여야 한다. 셋째, 일정한 순서에 따라 보조용언을 술어의 어간과 결합하여야 한다. 이러한 문제점을 해결하기 위하여 corpus를 분석하여 빈도수에 의해 계산적으로 보조용언에 관한 언어적 지식을 얻는다. corpus를 기반으로 하는 보조용언의 생성을 제안하고 평가를 통해 생성 결과의 향상을 보인다.
클러스터 중심 결정 방법을 개선한 K-Means 알고리즘의 구현
이신원,오형진,안동언,정성종,Lee Shin-Won,Oh HyungJin,An Dong-Un,Jeong Seong-Jong 한국정보처리학회 2004 정보처리학회논문지B Vol.11 No.7
K-Means algorithm is a non-hierarchical (plat) and reassignment techniques and iterates algorithm steps on the basis of K cluster centroids until the clustering results converge into K clusters. In its nature, K-Means algorithm has characteristics which make different results depending on the initial and new centroids. In this paper, we propose the modified K-Means algorithm which improves the initial and new centroids decision methodologies. By evaluating the performance of two algorithms using the 16 weighting scheme of SMART system, the modified algorithm showed $20{\%}$ better results on recall and F-measure than those of K-Means algorithm, and the document clustering results are quite improved. K-Means 알고리즘은 재배치 기법의 일종으로 K개의 초기 센트로이드를 중심으로 K개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. 알고리즘의 특성상 K-Means 알고리즘은 초기 클러스터 센트로이드(중심) 및 클러스터 중심을 결정하는 방법에 따라 다른 클러스터링 결과를 얻을 수 있다. 본 논문에서는 K-Means 알고리즘을 이용한 초기 클러스터 중심 및 클러스터 중심을 결정하는 방법을 개선한 변형 K-Means 알고리즘을 제안한다. 제안한 알고리즘의 평가를 위하여 SMART 시스템의 16가지 가중치 계산 방식을 이용하여 성능을 평가한 결과 변형 K-Means알고리즘이 K-Means 알고리즘보다 재현률과 F-Measure에서 $20{\%}$이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 관련 문서가 할당되는 클러스터링 성능이 우수함을 알 수 있었다.