http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Word2vec 모델로 학습된 단어 벡터의 의미 관계 분석
강형석(Hyungsuc Kang),양장훈(Janghoon Yang) 한국정보과학회 2019 정보과학회논문지 Vol.46 No.10
자연어 처리를 이용한 인공 지능 활용이 증가하면서 단어 임베딩에 대한 중요성이 증가하고 있다. 이 논문에서는 단어 임베딩에 활용되는 word2vec 모델이 단어들 간의 대립 및 상하 관계를 표현하는 능력을 군집화 특성과 t-SNE 분포를 이용하여 정성적으로 분석하였다. 이를 위하여 10가지 범주에 속하는 단어들에 대해서 K-Means 알고리즘에 따라서 군집화를 실시하였다. 단어의 대립 관계는 일부 제대로 표현되지 않는 경우가 발생하였다. 이는 일부 대립 관계에 있는 단어들이 다수의 공통적인 속성을 갖고 있으면서 소수의 대립적 속성만을 갖고 있기 때문으로 보인다. 또한, 단어의 상하 관계는 word2vec 모델에서 전혀 반영되지 않음이 확인되었다. 그 원인은 단어의 상하 관계가 언어의 자연스러운 습득 과정이 아니라, 지식 체계의 학습 과정을 통해 획득되는 정보이기 때문인 것으로 보인다. 따라서 분산 가설에 근거한 word2vec 모델은 일부 단어의 대립 관계를 표현하는 데 한계가 있고, 단어의 상하 관계를 제대로 표현하지 못하는 것으로 분석되었다. As the usage of artificial intelligence (AI) in natural language processing has increased, the importance of word embedding has grown significantly. This paper qualitatively analyzes the representational capability of word2vec models to structure semantic relation in terms of antonymy and hyponymy based on clustering characteristics and t-SNE distribution. To this end, a K-means clustering algorithm was applied to a set of words drawn from 10 categories. Some words in antonymy are found not to be embedded properly. This is attributed to the fact that they typically have many common attributes with a very few opposite ones. It is also observed that words in hyponymy are not properly embedded at all. This can be attributed to the fact that the hyponymic relations of those words are based on the information gathered through a learning process of a knowledge system, as opposed to a natural process of language acquisition. Thus, it appears that word2vec models based on the distributional hypothesis are limited to representing certain antonymic relations and do not properly represent hyponymic relations at all.
강형석 ( Hyungsuc Kang ),양장훈 ( Janghoon Yang ) 한국정보처리학회 2019 한국정보처리학회 학술대회논문집 Vol.26 No.1
단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.