http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
말뭉치 자원 희소성에 따른 통계적 수지 신호 번역 문제의 해결
박한철(Hancheol Park),김정호(Jung-Ho Kim),박종철(Jong C. Park) Korean Institute of Information Scientists and Eng 2017 정보과학회논문지 Vol.44 No.2
Despite the rise of studies in spoken to sign language translation, low-resource problems of sign language corpus have been rarely addressed. As a first step towards translating from spoken to sign language, we addressed the problems arising from resource scarcity when translating spoken language to manual signals translation using statistical machine translation techniques. More specifically, we proposed three preprocessing methods: 1) paraphrase generation, which increases the size of the corpora, 2) lemmatization, which increases the frequency of each word in the corpora and the translatability of new input words in spoken language, and 3) elimination of function words that are not glossed into manual signals, which match the corresponding constituents of the bilingual sentence pairs. In our experiments, we used different types of English-American sign language parallel corpora. The experimental results showed that the system with each method and the combination of the methods improved the quality of manual signals translation, regardless of the type of the corpora.
시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법
박한철 ( Hancheol Park ),권가진 ( Gahgene Gweon ),최호진 ( Ho-jin Choi ) 한국정보처리학회 2014 한국정보처리학회 학술대회논문집 Vol.21 No.1
본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 ‘의미 유사성’, ‘어휘 형태 비 유사성’을 평가하는 방식이다.
분산 표상 기법을 이용한 단어의 비표준 의미 사용 탐지
이희제(Huije Lee),박한철(Hancheol Park),양원석(Wonsuk Yang),박종철(Jong C. Park) 한국HCI학회 2018 한국HCI학회 학술대회 Vol.2018 No.1
본 연구에서는 분산 표상 기법으로 텍스트에서 사전상의 의미로 사용되지 않은 어휘(이하, 비표준의미 어휘)를 탐지하는 모델을 제안한다. 어휘의 어형은 동일하나 비표준 의미로 사용되는 경우를 판단하는 것은 자동화된 텍스트 분석 및 오역의 문제를 해결하는 데 중요한 요소이다. 본 연구에서는 분산 표상기법으로 생성된 문맥 및 대상 단어 벡터를 이용하여, 대상 단어가 주어진 문맥 내에서 적합한지를 검증하고 대상 단어가 비표준 의미로 사용되었는지 여부를 판단한다. 본 연구에서는 기존 연구에서의 문맥 벡터생성 방식이 지니는 문제점을 해결하기 위해, 통합적인 문맥 정보를 표상하는 방법과 문맥 내 단어들의 가중치를 주는 방법을 제안한다. 제안하는 방법은 트위터 데이터를 이용한 실험에서 기존에 제안된 모델보다 더 높은 성능을 보였다.