RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Word2vec와 Label Propagation을 이용한 감성사전 구축 방법

        허찬,온승엽 한국차세대컴퓨팅학회 2017 한국차세대컴퓨팅학회 논문지 Vol.13 No.2

        본 논문에서는 Word2vec을 이용한 새로운 그래프 기반 감성사전 구축 방법을 제안한다. 기존의 연구에서 단어 그래프에서의 변(edge)의 가중치를 계산하기 위하여 널리 사용해 오던 PMI(Point-wise Mutual Information)는문장의 맥락이나 문맥 상 의미를 통한 단어 간의 관계를 전혀 고려하지 않았다. 본 논문에서는 단어의 의미와 문장에서의 맥락을 고려하여 단어를 벡터로 표현하는 Word2vec 기법에 기반한 변의 가중치 계산 방법을 제안한다. 또한, 새로운 가중치 계산 방법이 감성 사전의 정확도를 개선하는 것을 실증하기 위하여 10,000건의 실제 영화평을포함하는 데이터를 기반으로 두 가지 LP(Label Propagation) 알고리즘에 새로운 Word2vec 가중치를 적용하여감성사전을 구축하는 실험을 실행하였다. 이 실험 결과 Word2vec 가중치 계산식을 적용하여 구축한 감성사전을 이용하여 새로운 문장에 대한 감성분석을 하였을 경우 기본의 방법보다 평균적으로 1.5%의 정확도가 향상됨을 알 수 있었다. In this paper we propose a new method for constructing a graph based sentiment dictionary using Word2vec and label propagation. The similarity calculation method used in the previous research to calculate the weight of the edges in a word graph, PMI(Point-wise Mutual Information), does not consider the relationships among the words by the context and the contextual meaning of a sentence for calculating the weights of the edges in a word graph. To improve the accuracy of the weights, we propose a new method using Word2vec, that vectorizes words by considering the meaning of the words and the context of the sentence containing the words. We confirmed the improvement of the performance of our proposed method through the experiments with actual clinical data. In the experiment of constructing sentiment dictionaries based on 10,000 movie reviews, our methods combining Word2vec weight calculation method and label propagation algorithms produced the sentiment dictionaries, which predict new text data with 1.5% more accuracy than the conventional method using PMI.

      • KCI등재

        워드 임베딩을 이용한 관광여행지 선호도 비교에 대한 실증 연구 : 강릉 관광여행지 SNS 이용자 중심으로

        장원중(Jang, Won Jung) 글로벌경영학회 2020 글로벌경영학회지 Vol.17 No.6

        본 연구는 워드임베딩의 단어표현기법을 이용하여 관광여행지 선호도 분석을 위한 실증 연구를 수행하고, 강릉 관광여행지 방문자의 네이버블로그와 인스타그램 이용자를 대상으로 비교 분석하여 살펴보았다. 이를 위해 워드임베딩기법인 Word2vec, GloVe 모델을 이용하여 중심단어의 주변단어 의미와 전체 말뭉치(Corpus)를 이용하여 단어 간의 의미를 반영하였다. 네이버블로그와 인스타그램 이용자 게시글 중에서 ‘강릉’ 키워드가 언급된 2019년 12월 10일 이전에 게시된 글을 대상으로 각각 2500개 데이터를 수집하여 이용하였다. 실증분석 결과 네이버블로그 이용자는 관광, 맛집, 커피, 여가를 주로 즐기는 것으로 판단된다. 이는 네이버블로그 이용자들이 주로 40대부터 60대인 것과 관련이 있는 것으로 판단된다. 인스타그램 이용자는 데이트, 미용, 취미, 맛집, 여가, 관광을 주로 즐기는 것으로 판단된다. 이는 인스타그램 이용자들이 주로 10대부터 30대인 것과 관련이 있는 것으로 판단된다. 즉, 관광여행지 추천 시에 이용자의 연령은 중요한 요소인 것으로 판단된다. 관광여행지 선호도 분석을 위해 Word2vec(w=10), Word2vec(w=20), GloVe 모델을 이용하고, 이중에서 Word2vec(w=10) 모델이 이용자의 관광여행지 선호도를 잘 표현하는 것으로 판단된다. 이는 SNS 이용자가 게시 글 작성 시 서술형으로 표현하기 보다는 핵심 키워드를 중심으로 게시글을 작성하는 것으로 판단된다. 본 연구의 실증결과는 관광여행지를 추천하는 경우, 관광객에게 만족도가 높은 관광여행지를 추천하는데 워드임베딩 단어표현기법(Word2vec, GloVe 모델)을 이용하여 여행자가 선호하는 관광지, 맛집, 데이터코드 등을 추천하는데 활용될 수 있을 것으로 보인다. 또한, 임베딩벡터(Embedding vector) 연산을 이용하여 이용자 맞춤서비스 개발에도 활용할 수 있을 것으로 기대된다. This study conducted an empirical study to analyze the preferences of tourist destinations using the word expression method of word embedding, and compared and analyzed targeting the users of Naver blog and Instagram Gangneung tourist destination visitors. To this end, the word embedding method, Word2vec, GloVe model, was used to reflect the meaning of the surrounding words and the meaning between the lines using the whole corpus. Among the articles posted by Naver Blog and Instagram users, 2,500 data were collected and used for articles posted before December 10, 2019 when the keyword Gangneung was mentioned. As a result of empirical analysis, it is judged that users of Naver Blog mainly enjoy tourism, popular restaurants, coffee, and leisure. It is judged that this is related to the fact that Naver blog users are mainly in their 40s to 60s. It is judged that Instagram users mainly enjoy dating, beauty, hobbies, popular restaurants, leisure, and tourism. It is judged that this is related to the fact that Instagram users are mainly in their 10s to 30s. That is, it is judged that the user s age is an important factor when recommending tourist destinations. Using Word2vec(w=10), Word2vec(w=20), and GloVe models to analyze the preferences of tourist destinations, it is judged that Word2vec(w=10) model, among them, is expresses the preferences of tourist’s destinations of users. It is judged that SNS users write posts based on key keywords, rather than expressing them in narrative form when writing posts. The empirical result of this study recommends tourist destinations with high satisfaction to tourists, and it seems that it will be used to recommend tourist destinations, popular restaurants, and data codes which tourists prefer by using word embedding expression method (Word2vec, GloVe model). In addition, it is expected that it can be used to develop customized services using embedding vector arithmetic operations.

      • KCI등재

        텍스트 마이닝을 이용한 감정 유발 요인‘Emotion Trigger’에 관한 연구

        안주영,배정환,한남기,송민 한국지능정보시스템학회 2015 지능정보연구 Vol.21 No.2

        The explosion of social media data has led to apply text–mining techniques to analyze big social media data in a more rigorous manner. Even if social media text analysis algorithms were improved, previous approaches to social media text analysis have some limitations. In the field of sentiment analysis of social media written in Korean, there are two typical approaches. One is the linguistic approach using machine learning, which is the most common approach. Some studies have been conducted by adding grammatical factors to feature sets for training classification model. The other approach adopts the semantic analysis method to sentiment analysis, but this approach is mainly applied to English texts. To overcome these limitations, this study applies the Word2Vec algorithm which is an extension of the neural network algorithms to deal with more extensive semantic features that were underestimated in existing sentiment analysis. The result from adopting the Word2Vec algorithm is compared to the result from co-occurrence analysis to identify the difference between two approaches. The results show that the distribution related word extracted by Word2Vec algorithm in that the words represent some emotion about the keyword used are three times more than extracted by co-occurrence analysis. The reason of the difference between two results comes from Word2Vec’s semantic features vectorization. Therefore, it is possible to say that Word2Vec algorithm is able to catch the hidden related words which have not been found in traditional analysis. In addition, Part Of Speech (POS) tagging for Korean is used to detect adjective as "emotional word" in Korean. In addition, the emotion words extracted from the text are converted into word vector by the Word2Vec algorithm to find related words. Among these related words, noun words are selected because each word of them would have causal relationship with “emotional word” in the sentence. The process of extracting these trigger factor of emotional word is named “Emotion Trigger” in this study. As a case study, the datasets used in the study are collected by searching using three keywords: professor, prosecutor, and doctor in that these keywords contain rich public emotion and opinion. Advanced data collecting was conducted to select secondary keywords for data gathering. The secondary keywords for each keyword used to gather the data to be used in actual analysis are followed: Professor (sexual assault, misappropriation of research money, recruitment irregularities, polifessor), Doctor (Shin hae-chul sky hospital, drinking and plastic surgery, rebate) Prosecutor (lewd behavior, sponsor). The size of the text data is about to 100,000(Professor: 25720, Doctor: 35110, Prosecutor: 43225) and the data are gathered from news, blog, and twitter to reflect various level of public emotion into text data analysis. As a visualization method, Gephi (http://gephi.github.io) was used and every program used in text processing and analysis are java coding. The contributions of this study are as follows: First, different approaches for sentiment analysis are integrated to overcome the limitations of existing approaches. Secondly, finding Emotion Trigger can detect the hidden connections to public emotion which existing method cannot detect. Finally, the approach used in this study could be generalized regardless of types of text data. The limitation of this study is that it is hard to say the word extracted by Emotion Trigger processing has significantly causal relationship with emotional word in a sentence. The future study will be conducted to clarify the causal relationship between emotional words and the words extracted by Emotion Trigger by comparing with the relationships manually tagged. Furthermore, the text data used in Emotion Trigger are twitter, so the data have a number of distinct features which we did not deal with in this study. These features will be considered in further study. 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적·의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 ‘감정어휘’로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 ‘Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

      • KCI등재

        Word2Vec과 앙상블 합성곱 신경망을 활용한 영화추천 시스템의 정확도 개선에 관한 연구

        강부식 한국디지털정책학회 2019 디지털융복합연구 Vol.17 No.1

        One of the most commonly used methods of web recommendation techniques is collaborative filtering. Many studies on collaborative filtering have suggested ways to improve accuracy. This study proposes a method of movie recommendation using Word2Vec and an ensemble convolutional neural networks. First, in the user, movie, and rating information, construct the user sentences and movie sentences. It inputs user sentences and movie sentences into Word2Vec to obtain user vectors and movie vectors. User vectors are entered into user convolution model and movie vectors are input to movie convolution model. The user and the movie convolution models are linked to a fully connected neural network model. Finally, the output layer of the fully connected neural network outputs forecasts of user movie ratings. Experimentation results showed that the accuracy of the technique proposed in this study accuracy of conventional collaborative filtering techniques was improved compared to those of conventional collaborative filtering technique and the technique using Word2Vec and deep neural networks proposed in a similar study. 웹 추천기법에서 가장 많이 사용하는 방식 중의 하나는 협업필터링 기법이다. 협업필터링 관련 많은 연구에서 정확도를 개선하기 위한 방안이 제시되어 왔다. 본 연구는 Word2Vec과 앙상블 합성곱 신경망을 활용한 영화추천 방안에 대해 제안한다. 먼저 사용자, 영화, 평점 정보에서 사용자 문장과 영화 문장을 구성한다. 사용자 문장과 영화 문장을 Word2Vec에 입력으로 넣어 사용자 벡터와 영화 벡터를 구한다. 사용자 벡터는 사용자 합성곱 모델에 입력하고, 영화 벡터는 영화 합성곱 모델에 입력한다. 사용자 합성곱 모델과 영화 합성곱 모델은 완전연결 신경망 모델로 연결된다. 최종적으로 완전연결 신경망의 출력 계층은 사용자 영화 평점의 예측값을 출력한다. 실험결과 전통적인 협업필터링 기법과 유사 연구에서 제안한 Word2Vec과 심층 신경망을 사용한 기법에 비해 본 연구의 제안기법이 정확도를 개선함을 알 수 있었다.

      • KCI등재

        Word2Vec를 이용한 한국어 단어 군집화 기법

        허지욱 한국인터넷방송통신학회 2018 한국인터넷방송통신학회 논문지 Vol.18 No.5

        최근 인터넷의 발전과 함께 사용자들이 원하는 정보를 빠르게 획득하기 위해서는 효율적인 검색 결과를 제공해주는 정보검색이나 데이터 추출등과 같은 연구 분야에 대한 중요성이 점점 커지고 있다. 하지만 새롭게 생겨나는 한국어 단어나 유행어들은 의미파악하기가 어렵기 때문에 주어진 단어와 의미적으로 유사한 단어들을 찾아 분석하는 기법들에 대한 연구가 필요하다. 이를 해결하기 위한 방법 중 하나인 단어 군집화 기법은 문서에서 주어진 단어와 의미상 유사한 단어들을 찾아서 묶어주는 기법이다. 본 논문에서는 Word2Vec기법을 이용하여 주어진 한글 문서의 단어들을 임베딩하여 자동적으로 유사한 한국어 단어들을 군집화 하는 기법을 제안한다. Recently with the development of Internet technology, a lot of research area such as retrieval and extracting data have getting important for providing the information efficiently and quickly. Especially, the technique of analyzing and finding the semantic similar words for given korean word such as compound words or generated newly is necessary because it is not easy to catch the meaning or semantic about them. To handle of this problem, word clustering is one of the technique which is grouping the similar words of given word. In this paper, we proposed the korean language clustering technique that clusters the similar words by embedding the words using Word2Vec from the given documents.

      • KCI등재

        Word2Vec을 이용한 반복적 접근 방식의 그래프 기반 단어 중의성 해소

        오동석(Dongsuk O),강상우(Sangwoo Kang),서정연(Jungyun Seo) 한국인지과학회 2016 인지과학 Vol.27 No.1

        지식기반을 이용한 비지도 방법의 단어 중의성 해소 연구는 그래프 기반 단어 중의성 해소 방법에 중점을 두고 있다. 그래프 기반 방법은 중의성 단어와 문맥이나 문장에서 같이 등장한 단어들과 의미그래프를 구축하여 연결 관계를 보고 중의성을 해소한다. 하지만, 모든 중의성 단어를 가지고 의미 그래프를 구축하게 되면 불필요한 간선과 노드 정보가 추가되어 오류를 증가시킨다는 단점이 있다. 본 연구에서는 이러한 문제를 해결하고자 반복적 접근 방식의 그래프 기반 단어 중의성 해소방식을 사용한다. 이 방식은 모든 중의성 단어들을 특정 기준에 의해서 단어를 매칭 하고 매칭 된 단어들을 반복적으로 그래프를 재구축하여 단어중의성을 해소한다. 본 연구에서는 Word2Vec을 이용하여 문맥이나 문장 내에 중의성 단어와 의미적으로 가장 유사한 단어끼리 매칭하고, 매칭 된 단어들을 순서대로 그래프를 재구축하여 중의성 단어의 의미를 결정하였다. 결과적으로 Word2Vec의 단어 벡터정보를 이용하여 이전에 연구 되었던 그래프 기반 방법과 반복적 접근 방식의 그래프 기반 방법보다 더 높은 성능을 보여준다. Recently, Unsupervised Word Sense Disambiguation research has focused on Graph based disambiguation. Graph-based disambiguation has built a semantic graph based on words collocated in context or sentence. However, building such a graph over all ambiguous word lead to unnecessary addition of edges and nodes (and hence increasing the error). In contrast, our work uses Word2Vec to consider the most similar words to an ambiguous word in the context or sentences, to rebuild a graph of the matched words. As a result, we show a higher F1-Measure value than the previous methods by using Word2Vec.

      • KCI등재

        역문서빈도로 가중된 부속단어를 이용한 FastText 워드 임베딩

        최재걸,이상웅 한국차세대컴퓨팅학회 2019 한국차세대컴퓨팅학회 논문지 Vol.15 No.3

        Word Embedding is important in natural language processing, and word2vec is known as a representative algorithm. Word2vec and many other dictionary based word-imbedding algorithms have limitations in creating word vectors only for words used in learning, because they does not use the words’ morphological feature. FastText is a proposed algorithm to solve this problem, word embedding in a combination of sub-words, thus creating a word vector for words that have never been used in learning. Because FastText uses morphological features, it has strengths in syntactic and weekness in semantic compared to word2vec. In this paper, the method of improving FastText is presented by using the inverse document frequency of the subword, and was intended to overcome the weakness in the semantic part of FastText. The results of the experiment show that there has been improvement in semantic tests with little loss in syntactic tests. this method can be applied to any word embedding algorithms using subwords. The probabilistic FastText designed to distinguish multi-sense words and was also tested with the inverse document frequency, and the results confirmed that the performance is improved. 워드 임베딩은 자연어처리 분야에서 중요한 기술로, word2vec이 대표적인 알고리즘으로 알려져 있다. word2vec을 비롯한 사전기반의 워드 임베딩 알고리즘들은 단어의 형태소특징을 사용하지 않는 방식, 즉 단어를 하나의 개체로 사용하기 때문에 학습에 사용된 단어에 대해서만 단어 벡터를 만들 수 있는 한계를 가지고 있다. FastText는 이 문제를 해결하기 위해 제안된 알고리즘으로, 부속단어들의 조합으로 워드 임베딩을 하며, 이에 따라 학습에 사용된 적이 없는 단어에 대해서도 단어 벡터를 만들 수 있다. FastText는 형태소적 특징을 사용하기 때문에, word2vec 방식에 비하여 구문적 부분에서는 강점이 있고, 의미적 부분에서는 약점이 있다. 이 논문에서는 부속단어의 역문서빈도를 이용하여 FastText를 개선하는 방법을 제시하며, FastText가 가지고 있는 의미적 부분에서의 약점을 극복하고자 한다. 실험결과는 구문적 부분에서의 손실이 거의 없이 의미적부분에서 개선이 있었음을 보여준다. 또한 이 방법은 부속단어를 이용한 워드 임베딩에 모두 적용할 수 있다. 중의어를 구별하여 워드 임베딩하기 위해 고안된 확률적 FastText에도 역문서 빈도를 적용 실험하고, 결과를 통해 성능이 향상되었음을 확인하고자 한다.

      • KCI등재

        Word2Vec을 이용한 사용자기반 협업필터링의 예측 정확도 개선

        강부식 한국지식정보기술학회 2018 한국지식정보기술학회 논문지 Vol.13 No.1

        Word2Vec is a most popular method in text mining area, recently. It converts words to vectors using association among words in sentences. Similar words are nearly located in the vector space. Improving predictive accuracy of recommender algorithms is a major work in the area of recommender systems. User-based collaborative filtering recommends products using the information about product preference of Neighbors. This study proposed a method to compute user similarity using vectors of users by Word2Vec instead of using traditional method. In order to use Word2Vec, we separate sentences first, and then find corpus that is meaningful word set of the sentences. For using Word2Vec in user-based movie recommender, we find users that have seen same movies first, we substitute an user to a word and user list of a movie to corpus of one sentence. There can be several methods to compose the sentences in recommender systems. This study considers two methods, first method constructs a sentence per movie and second method can construct several sentences per movie. After sentence construction, it enters corpus of sentences into Word2Vec and computes vectors of users, and then computes user similarity by coefficient corelation method using the vectors of users. Using the similarity, it recommends products by user-based collaborative filtering. To validate, the proposed methods were applied to filmtrust dataset. The experimental results of repeating 10-fold cross validation three times showed that mean MAE of user-based collaborative filtering(wvCF3.0) applying Word2Vec improved the predictive accuracy greatly than that of conventional collaborative filtering method(uCF). Also, it showed that the sentence expansion method(wvCFthree) constructing several sentences per movie is better than the one sentence method(wvCF3.0) constructing one sentence per movie for improving the predictive accuracy. To test statistical significance between uCF and wvCF3.0, and between wvCF3.0 and wvCFthree, we experimented paired t-test and confirmed the statistical significance.

      • KCI등재

        한국어 단어 임베딩을 위한 Word2vec 모델의 최적화

        강형석,양장훈 한국디지털콘텐츠학회 2019 한국디지털콘텐츠학회논문지 Vol.20 No.4

        단어 임베딩 모델로 최근 인기를 끌고 있는 word2vec 모델을 한국어 처리에 적용하는 사례가 늘고 있다. Word2vec 모델에 대한 표준적인 성능 검증 방식은 유추 검사이지만, 최근까지 한국어에 적합한 유추 검사는 개발되지 않았다. 이런 이유로 한국어 word2vec 모델에 대한 하이퍼파라미터 최적화는 보통 유사도 검사를 통해 이루어졌다. 본 논문에서는 기존의 유사도 검사뿐만 아니라, 한국어의 언어학적 특성을 반영한 유추 검사를 이용해서 하이퍼파라미터 최적화를 시도했다. 그 결과, 학습 알고리즘으로는 skip-gram 방식이 CBOW보다 우수하고, 단어 벡터의 크기는 300 차원이 적절하며, 문맥 윈도의 크기는 5에서 10 사이가 적절함을 발견하였다. 또한, 말뭉치의 크기에 따라서 학습될 어휘 수를 적절하게 제한하는 데 사용되는 최소 출현빈도 값은 총 어휘 수가 100만개 이하일 경우에는 1로 설정하여 가급적 학습될 어휘 수를 적정 수준으로 유지하는 것이 중요함을 확인하였다. In Korean language processing, there are more and more cases of applying word2vec models, which are recently gaining popularity as word embedding models. Analogy tests are used as standard evaluation methods for word2vec models; however, no analogy test suitable for Korean has been developed yet. For this reason, similarity tests have been employed in optimizing hyperparameters for Korean word2vec models. This paper attempts to optimize some of these hyperparameters through the existing similarity test as well as a new analogy test that reflects certain features intrinsic to the Korean language. It turns out that the training algorithm of skip-gram is better than that of CBOW, the optimal dimension of word vectors is 300 and the optimal size of the context window lies between 5 and 10. It is also found that keeping the size of vocabulary trained in the corpus at a reasonable level is critical, which result in setting the hyperparameter of minimum count as 1 for the size of vocabulary less than one million.

      • KCI등재

        Word2Vec 모델을 이용한 ESG 점수 도출에 관한 연구 : 비정형 문서간 유사도 분석을 활용한 텍스트 계량화 방법론 제안

        양병모,양오석 한국산업경영학회 2022 경영연구 Vol.37 No.-

        This study proposed a quantitative analysis method using text analysis modeling according to the importance of unstructured text. ESG scores are derived using a similarity analysis between ESG reports and ESG code of best practices in KCGS. Each text was configured in the same dimensions and constructed to select high important keywords by using a model of Word2Vec algorithm. Since the Word2Vec algorithm shows variability of topic words according to the hyper-parameter, as a result of the repeated experiment were performed to suggest optimal optimization of parameters and the same aspect as the previous study. Looking at the technically superior characteristics of this research methodology, ESG scores can be quickly calculated within 10 seconds per report, and the programmed method avoids the occurrence of human errors such as duplication and omission errors. Therefore, this quantitative text analysis method specifically is able to calculate and extract another ESG scores in contrast to the existing ESG evaluation method. 본 연구는 비정형 텍스트의 가치 증대에 따라 텍스트 분석 모델링을 활용한 계량화 방법을 제안하였다. 기업에서 발행하는 ESG 보고서와 ESG 평가 기관인 한국지배구조원의 ESG 모범규준 문서간 유사도 분석방법을 활용한 ESG 점수를 도출하고 있다. 비정형 텍스트 분석 도구인 Word2Vec 모델을 통해 각각의 텍스트를 동일한 차원 크기로 구성하고, 중요도가 높은 주제어로 선별하였다. 다만, Word2Vec 모델은 하이퍼파라미터에 따라 주제어 결정에 변동성이 나타나는 특징이 있다. 따라서 반복 실험을 수행하여 최적의 파라미터를제시하였으며, 실험 결과 선행연구와 동일한 양상이 나타나 다시 한번 수치의 타당성을 확보하였다. 본 연구의ESG 텍스트 계량화 방법은 분석을 하는데 있어서 중복 및 누락 오류와 같은 휴먼 에러 발생을 방지하고, 프로그래밍화된 계산 방식은 1편의 보고서당 10초 이내로 ESG 점수를 빠르게 산출하는 기술적 강점을 지니고있다. 따라서 본 계량화 결과는 기존의 ESG 평가 방식과 대비하여, 또 다른 ESG 평가 도구를 발명함으로써기업 ESG 고유 특성을 분석하는 실증 연구의 지평을 넓힐 수 있을 것이다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼