http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
나휘동(Hwidong Na),이건일(Jianri Li),이종혁(Jong-Hyeok Lee) 한국정보과학회 2012 한국정보과학회 학술발표논문집 Vol.39 No.1B
서로 다른 분야에서 사용되는 어휘는 서로 다르게 번역된다. 본 논문에서는 특정 분야를 고려해 번역하기 위하여 대역 사전을 통계기계번역과 결합한 방법을 제안한다. 한/일 병렬 말뭉치를 500문장을 이용해 평가해 본 결과 학습용 병렬 말뭉치의 양이 너무 적거나 특정 분야의 병렬 말뭉치가 존재하지 않을 때 대역 사전을 결합하면 번역 성능이 향상되었다.
문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역
김한경(Hankyong Kim),나휘동(Hwidong Na),이금희(Jin-Ji Li),이종혁(Jong-Hyeok Lee) 한국정보과학회 2010 정보과학회논문지 : 소프트웨어 및 응용 Vol.37 No.4
통계기계번역에서 번역성능의 향상을 위해서 문장의 유형이나 장르에 따라 클러스터링을 수행하여 도메인에 특화된 번역을 시도하는 방법이 있다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 각 문장의 문법적 구조 유사도에 따른 유형별분류 기법과, 단어 유사도 정보를 사용한 장르 구분법을 적용하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 도메인 특화 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조 유사도와 단어 유사도의 계산 방법으로는 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정에서는 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다. Clustering method which based on sentence type or document genre is a technique used to improve translation quality of SMT(statistical machine translation) by domain-specific translation. But there is no previous research using sentence type and document genre information simultaneously. In this paper, we suggest an integrated clustering method that classifying sentence type by syntactic structure similarity and document genre by word similarity information. We interpolated domainspecific models from clusters with general models to improve translation quality of SMT system. Kernel function and cosine measures are applied to calculate structural similarity and word similarity. With these similarities, we used machine learning algorithms similar to K-means to clustering. In Japanese-English patent translation corpus, we got 2.5% point relative improvements of translation quality at optimal case.