RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기


      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법

        홍소라(Sola Hong),정연오(Yeounoh Chung),이지형(Jee-Hyong Lee) 한국지능시스템학회 2014 한국지능시스템학회논문지 Vol.24 No.5

        대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 “감성 레이블이 있는 데이터”와 함께 “감성 레이블이 없는 데이터”도 활용하기 위해서 반감독 학습기법인 self=training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 “레이블이 있는 데이터”의 레이블이 있는 데이터를 활용하여 “레이블이 없는 데이터”의 레이블을 확정하여 “레이블이 있는 데이터”를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 “레이블이 없는 데이터”의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 “감성 레이블이 없는 데이터”의 레이블을 결정하여 “감성 레이블이 있는 데이터”로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 “감성 레이블이 있는 데이터”에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 “감성 레이블이 있는 데이터” 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다. This paper aims to analyze user`s emotion automatically by analyzing Twitter, a representative social network service (SNS). In order to create sentiment analysis models by using machine learning techniques, sentiment labels that represent positive/negative emotions are required. However it is very expensive to obtain sentiment labels of tweets. So, in this paper, we propose a sentiment analysis model by using self-training technique in order to utilize “data without sentiment labels” as well as “data with sentiment labels”. Self-training technique is that labels of “data without sentiment labels” is determined by utilizing “data with sentiment labels”, and then updates models using together with “data with sentiment labels” and newly labeled data. This technique improves the sentiment analysis performance gradually. However, it has a problem that misclassifications of unlabeled data in an early stage affect the model updating through the whole learning process because labels of unlabeled data never changes once those are determined. Thus, labels of “data without sentiment labels” needs to be carefully determined. In this paper, in order to get high performance using self-training technique, we propose 3 policies for updating “data with sentiment labels” and conduct a comparative analysis. The first policy is to select data of which confidence is higher than a given threshold among newly labeled data. The second policy is to choose the same number of the positive and negative data in the newly labeled data in order to avoid the imbalanced class learning problem. The third policy is to choose newly labeled data less than a given maximum number in order to avoid the updates of large amount of data at a time for gradual model updates. Experiments are conducted using Stanford data set and the data set is classified into positive and negative. As a result, the learned model has a high performance than the learned models by using “data with sentiment labels” only and the self-training with a regular model update policy.

      • 분산환경에서의 대용량 트위터 분석

        정연오(Yeounoh Chung),홍소라(Sola Hong),이지형(Jee-hyong Lee) 한국HCI학회 2014 한국HCI학회 학술대회 Vol.2014 No.2

        최근 소셜미디어 마케팅에 대한 기업들의 관심이 높아지면서, 소셜미디어에 나타난 여론과 의견을 분석해 유용한 정보로 재가공하는 오피니언 마이닝 기술에 대한 필요가 증가하고 있다. 비즈니스적으로 중요하지 않은 개개의 메시지들을 대량으로 축적하여 비즈니스적으로 중요한 새로운 정보를 얻고, 이를 통해 새로운 가치를 창출하기 위해서는 다양한 정보가 빠른 속도로 생성되며 끊임없이 쌓여가는 소셜 빅데이터를 제한된 시간 내에 효율적으로 처리할 수 있어야 한다. 이러한 빅데이터의 비용 효율적인 처리를 위해서는 수평적 성능 확장이 가능한 분산 환경에서 데이터를 분석할 수 있어야 한다. 본 논문에서는 몽고 DB 의 집계 프레임워크를 활용하여 분산 환경에서 소셜 빅데이터를 저장하고 분석하는 오피니언 마이닝 시스템을 제안하고, 트위터 데이터를 사용한 실험을 통하여 제안하는 시스템의 성능확장성을 검증한다. As social media services like Twitter and Facebook are becoming ever increasingly popular, social media marketing has become a core component of businesses. Consequently, social opinion mining on social media services has gained much interests and attention over the years. Extracting business critical information from massively collected less important online messages is not trivial. To extract business critical information from continuously and rapidly accumulating social data, one must be able to process such data in a limited time with limited resources. In this paper, a distributed opinion mining system using MongoDB aggregation framework is proposed. A distributed system is well suited for big data processing for its scalability. We show that the performance of the proposed system scales well with the size of the cluster using Twitter data.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
