http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
위치적 연관성과 어휘적 유사성을 이용한 웹 이미지 캡션 추출
이형규(Hyoung-Gyu Lee),김민정(Min-Jeong Kim),홍금원(Gumwon Hong),임해창(Hae-Chang Rim) 한국정보과학회 2009 정보과학회논문지 : 소프트웨어 및 응용 Vol.36 No.4
이 논문은 웹 문서의 이미지 캡션 추출을 위한 방법으로서 이미지와 캡션의 위치적 연관성과 본문과 캡션의 어휘적 유사성을 동시에 고려한 방법을 제안한다. 이미지와 캡션의 위치적 연관성은 거리와 방향 관점에서 캡션이 이미지에 상대적으로 어떻게 위치하고 있는지를 나타내며, 본문과 캡션의 어휘적 유사성은 이미지를 설명하고 있는 캡션이 어휘적으로 본문과 어느 정도 유사한지를 나타낸다. 이미지와 캡션을 독립적으로 고려한 자질만을 사용한 캡션 추출 방법을 기저 방법으로 놓고 제안하는 방법들을 추가적인 자질로 사용하여 캡션을 추출하였을 때, 캡션 추출 정확률과 캡션 추출 재현율이 모두 향상되며, 캡션 추출 F-measure가 약 28% 향상되었다. In this paper, we propose a new web image caption extraction method considering the positional relation between a caption and an image and the lexical similarity between a caption and the main text containing the caption. The positional relation between a caption and an image represents how the caption is located with respect to the distance and the direction of the corresponding image. The lexical similarity between a caption and the main text indicates how likely the main text generates the caption of the image. Compared with previous image caption extraction approaches which only utilize the independent features of image and captions, the proposed approach can improve caption extraction recall rate, precision rate and 28% F-measure by including additional features of positional relation and lexical similarity.
이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법
박에스더(Esther Park),이형규(Hyoung-Gyu Lee),김민정(Min-Jeong Kim),임해창(Hae-Chang Rim) 한국인지과학회 2011 인지과학 Vol.22 No.1
패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을때 번역률이 향상됨을 확인할 수 있었다. Paraphrasing is the act of writing a text using other words without altering the meaning. Paraphrases can be used in many fields of natural language processing. In particular, paraphrases can be incorporated in machine translation in order to improve the coverage and the quality of translation. Recently, the approaches on paraphrase extraction utilize bilingual parallel corpora, which consist of aligned sentence pairs. In these approaches, paraphrases are identified, from the word alignment result, by pivot phrases which are the phrases in one language to which two or more phrases are connected in the other language. However, the word alignment is itself a very difficult task, so there can be many alignment errors. Moreover, the alignment errors can lead to the problem of selecting incorrect pivot phrases. In this study, we propose a method in paraphrase extraction that discriminates good pivot phrases from bad pivot phrases. Each pivot phrase is weighted according to its reliability, which is scored by considering the lexical and part-of-speech information. The experimental result shows that the proposed method achieves higher precision and recall of the paraphrase extraction than the baseline. Also, we show that the extracted paraphrases can increase the coverage of the Korean-English machine translation.
양정아(Jung-A Yang),이형규(Hyoung-Gyu Lee) 한국정보과학회 2009 한국정보과학회 학술발표논문집 Vol.36 No.1
신문 또는 e-mail을 통해서 접하게 되는 ‘이미지’ 형태의 광고들은 단순한 ‘그림’이 아닌 ‘정보’를 포함한 개체이다. 본 논문에서는 ‘이미지’ 형태 광고의 광고문구를 이용하여 해당 광고의 목적과 내용을 알아 내기 위한 정보 추출 시스템의 개발 과정 및 결과를 기술한다. 정보추출 시스템의 개발 단계는 광고를 분류하기 위한 지식 정보를 관리하고, 정의된 개념을 명세화 시키기 위한 온톨로지의 구축하는 과정과 온톨로지를 활용하여 광고문구로부터 정보를 추출하기 위한 시스템을 개발하는 과정으로 진행되고, 실험 단계는 광고문구를 token단위로 분리, 각 token 분류, 정보화의 3단계를 거쳐서 진행된다. 검증 단계는 사람이 작업한 정보 추출 결과와 시스템의 정보 추출결과를 비교하여 시스템의 성능을 평가한다. 실험결과, 본 논문에서 제안하는 정보 추출 시스템은 72.6%의 재현도와 50%의 정확도, 59.2%의 f1-score를 보인다.
블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구
한범준 ( Bum-jun Han ),김민정 ( Min-jeong Kim ),이형규 ( Hyoung-gyu Lee ) 한국정보처리학회 2010 한국정보처리학회 학술대회논문집 Vol.17 No.1
블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.