RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가

      한글로보기

      https://www.riss.kr/link?id=A101952855

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다.
      번역하기

      웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진...

      웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Today, opinion reviews on the Web are often used as a means of information exchange. As the importance of opinion reviews continues to grow, the number of issues for opinion spam also increases. Even though many research studies on detecting spam reviews have been conducted, some limitations of gold-standard datasets hinder research. Therefore, we introduce a new dataset called “Paraphrased Opinion Spam (POS)" that contains a new type of review spam that imitates truthful reviews. We have noticed that spammers refer to existing truthful reviews to fabricate spam reviews. To create such a seemingly truthful review spam dataset, we asked task participants to paraphrase truthful reviews to create a new deceptive review. The experiment results show that classifying our POS dataset is more difficult than classifying the existing spam datasets since the reviews in our dataset more linguistically look like truthful reviews. Also, training volume has been found to be an important factor for classification model performance.
      번역하기

      Today, opinion reviews on the Web are often used as a means of information exchange. As the importance of opinion reviews continues to grow, the number of issues for opinion spam also increases. Even though many research studies on detecting spam revi...

      Today, opinion reviews on the Web are often used as a means of information exchange. As the importance of opinion reviews continues to grow, the number of issues for opinion spam also increases. Even though many research studies on detecting spam reviews have been conducted, some limitations of gold-standard datasets hinder research. Therefore, we introduce a new dataset called “Paraphrased Opinion Spam (POS)" that contains a new type of review spam that imitates truthful reviews. We have noticed that spammers refer to existing truthful reviews to fabricate spam reviews. To create such a seemingly truthful review spam dataset, we asked task participants to paraphrase truthful reviews to create a new deceptive review. The experiment results show that classifying our POS dataset is more difficult than classifying the existing spam datasets since the reviews in our dataset more linguistically look like truthful reviews. Also, training volume has been found to be an important factor for classification model performance.

      더보기

      목차 (Table of Contents)

      • 요약
      • Abstract
      • 1. 서론
      • 2. 관련 연구
      • 3. 스팸 리뷰 연구를 위한 데이터셋
      • 요약
      • Abstract
      • 1. 서론
      • 2. 관련 연구
      • 3. 스팸 리뷰 연구를 위한 데이터셋
      • 4. 실험
      • 5. 결론 및 향후 연구
      • References
      더보기

      참고문헌 (Reference)

      1 A. Mukherjee, "What yelp fake review filter might be doing" 2013

      2 J. Li, "Towards a general rule for identifying deceptive opinion spam" 1 : 1566-1576, 2014

      3 H. Sun, "Synthetic review spamming and defense" 2013

      4 A. Mukherjee, "Spotting fake reviewer groups in consumer reviews" 191-200, 2012

      5 N. Jindal, "Opinion spam and analysis" 2008

      6 S. Gokhman, "In search of a gold standard in studies of deception" 23-30, 2012

      7 N. Jindal, "Finding unusual review patterns using unexpected rules" 1549-1552, 2010

      8 M. Ott, "Finding deceptive opinion spam by any stretch of the imagination" 1 : 309-319, 2011

      9 S. Rendle, "Factorization machines with libFM" 3 : 57-80, 2012

      10 A. Heydari, "Detection of review spam : A survey" 3634-3642, 2015

      1 A. Mukherjee, "What yelp fake review filter might be doing" 2013

      2 J. Li, "Towards a general rule for identifying deceptive opinion spam" 1 : 1566-1576, 2014

      3 H. Sun, "Synthetic review spamming and defense" 2013

      4 A. Mukherjee, "Spotting fake reviewer groups in consumer reviews" 191-200, 2012

      5 N. Jindal, "Opinion spam and analysis" 2008

      6 S. Gokhman, "In search of a gold standard in studies of deception" 23-30, 2012

      7 N. Jindal, "Finding unusual review patterns using unexpected rules" 1549-1552, 2010

      8 M. Ott, "Finding deceptive opinion spam by any stretch of the imagination" 1 : 309-319, 2011

      9 S. Rendle, "Factorization machines with libFM" 3 : 57-80, 2012

      10 A. Heydari, "Detection of review spam : A survey" 3634-3642, 2015

      11 E-P. Lim, "Detecting product review spammers using rating behaviors" 2010

      12 S. Kim, "Deep semantic frame-based deceptive opinion spam analysis" 1140-1141, 2015

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2022 평가예정 재인증평가 신청대상 (재인증)
      2019-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2016-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2014-09-16 학술지명변경 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 및 레터 -> 정보과학회 컴퓨팅의 실제 논문지
      외국어명 : Journal of KIISE : Computing Practices and Letters -> KIISE Transactions on Computing Practices
      KCI등재
      2013-04-26 학술지명변경 외국어명 : Journal of KISS : Computing Practices and Letters -> Journal of KIISE : Computing Practices and Letters KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-10-02 학술지명변경 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 -> 정보과학회논문지 : 컴퓨팅의 실제 및 레터
      외국어명 : Journal of KISS : Computing Practices -> Journal of KISS : Computing Practices and Letters
      KCI등재
      2007-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2005-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2002-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.29 0.29 0.27
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.24 0.21 0.503 0.04
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼