단어 임베딩은 컴퓨터가 자연어를 인식할 수 있도록 하는 변환 기법으로 기계번역, 개체명 인식 등 기계학습을 바탕으로 하는 자연어 처리 분야에서 다양하게 사용되고 있다. 단어 임베딩을...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A106192366
2019
Korean
word embedding ; NLP(Natural Language Processing) ; Word2Vec ; GloVe ; FastText ; 단어 임베딩 ; 자연어 처리 ; Word2Vec ; GloVe ; FastText
KCI우수등재
학술저널
413-418(6쪽)
1
0
상세조회0
다운로드단어 임베딩은 컴퓨터가 자연어를 인식할 수 있도록 하는 변환 기법으로 기계번역, 개체명 인식 등 기계학습을 바탕으로 하는 자연어 처리 분야에서 다양하게 사용되고 있다. 단어 임베딩을...
단어 임베딩은 컴퓨터가 자연어를 인식할 수 있도록 하는 변환 기법으로 기계번역, 개체명 인식 등 기계학습을 바탕으로 하는 자연어 처리 분야에서 다양하게 사용되고 있다. 단어 임베딩을 생성하는 다양한 단어 임베딩 모델들이 존재하지만 이러한 모델들을 동일한 조건에서 성능을 비교 분석한 연구가 미비하다. 본 논문에서는 한국어 형태소 단위 띄어쓰기를 기반으로 하여 활발하게 사용되고 있는 모델인 Word2Vec의 Skip-Gram과 CBOW, GloVe, FastText의 성능을 비교 분석한다. 뉴스 대용량 말뭉치 및 세종 말뭉치를 바탕으로 실험한 결과 FastText가 가장 높은 성능을 확인할 수 있었다.
다국어 초록 (Multilingual Abstract)
Word embedding is a transformation technique that enables a computer to recognize natural language. It is used in various fields of natural language processing based on machine learning such as machine translation and named-entity recognition. Various...
Word embedding is a transformation technique that enables a computer to recognize natural language. It is used in various fields of natural language processing based on machine learning such as machine translation and named-entity recognition. Various word-embedding models are available; however, few studies have compared the performance of these models under similar conditions. In this paper, we compare and analyze the performance of Word2Vec Skip-Gram, CBOW, Glove, and FastText, which are actively used according to Korean morpheme spacing. Based on experimental results with large news corpus and Sejong corpus, FastText yielded the best performance among CBOW, Skip-gram, Glove, and FastText of Word2Vec.
참고문헌 (Reference)
1 남길임, "한국어 정형화된 표현의 분석 단위에 대한 연구: 형태 기반 분석과 어절 기반 분석의 비교를 중심으로" 담화·인지언어학회 20 (20): 113-136, 2013
2 홍진표, "품사 태거와 빈도 정보를 활용한 세종 형태 분석 말뭉치 오류 수정" 한국정보과학회 40 (40): 417-428, 2013
3 Sanghyuk Choi, "On word embedding models and parameters optimized for korean" 2016
4 Hyunsoo Jo, "Korean Word Embedding using FastText"
5 Zhai, M., "Intrinsic and Extrinsic Evaluations of Word Embeddings" 4282-4283, 2016
6 Pennington, J, "Glove, Global vectors for word representation" 1532-1543, 2014
7 Bojanowski, P., "Enriching word vectors with subword information"
8 Mikolov, T., "Efficient estimation of word representations in vector space"
9 Baroni, M, "Don't count, predict! A systematic comparison of contextcounting vs. context-predicting semantic vectors" 1 : 238-247, 2014
10 Mikolov, T., "Distributed representations of words and phrases and their compositionality" 3111-3119, 2013
1 남길임, "한국어 정형화된 표현의 분석 단위에 대한 연구: 형태 기반 분석과 어절 기반 분석의 비교를 중심으로" 담화·인지언어학회 20 (20): 113-136, 2013
2 홍진표, "품사 태거와 빈도 정보를 활용한 세종 형태 분석 말뭉치 오류 수정" 한국정보과학회 40 (40): 417-428, 2013
3 Sanghyuk Choi, "On word embedding models and parameters optimized for korean" 2016
4 Hyunsoo Jo, "Korean Word Embedding using FastText"
5 Zhai, M., "Intrinsic and Extrinsic Evaluations of Word Embeddings" 4282-4283, 2016
6 Pennington, J, "Glove, Global vectors for word representation" 1532-1543, 2014
7 Bojanowski, P., "Enriching word vectors with subword information"
8 Mikolov, T., "Efficient estimation of word representations in vector space"
9 Baroni, M, "Don't count, predict! A systematic comparison of contextcounting vs. context-predicting semantic vectors" 1 : 238-247, 2014
10 Mikolov, T., "Distributed representations of words and phrases and their compositionality" 3111-3119, 2013
11 김선우, "Bidirectional LSTM-CRF 기반의 음절 단위 한국어 품사 태깅 및 띄어쓰기 통합 모델 연구" 한국정보과학회 45 (45): 792-800, 2018
합성곱 신경망을 위한 Elastic Multiple Parametric Exponential Linear Units
K-means 클러스터링 방법과 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법
전방향 안전서명을 사용하는 빠른 블록체인 합의 알고리즘
학술지 이력
| 연월일 | 이력구분 | 이력상세 | 등재구분 |
|---|---|---|---|
| 2021 | 평가예정 | 계속평가 신청대상 (등재유지) | |
| 2016-01-01 | 평가 | 우수등재학술지 선정 (계속평가) | |
| 2015-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
| 2002-01-01 | 평가 | 학술지 통합 (등재유지) | ![]() |
학술지 인용정보
| 기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
|---|---|---|---|
| 2016 | 0.19 | 0.19 | 0.19 |
| KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
| 0.2 | 0.18 | 0.373 | 0.07 |