RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      카테고리 기반 뉴스 데이터의 GPT를 활용한 연도별, 월별, 일별 경향성 분석 및 가짜 뉴스 탐지 = Trend Analysis and Fake News Detection Using GPT on Category-Based News Data : Yearly, Monthly, and Daily Insights

      한글로보기

      https://www.riss.kr/link?id=T17195929

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      디지털 기술의 발전으로 뉴스 데이터의 양이 급증하며 이를 체계적으로 분석하고 활용하는 필요성이 커지고 있다. 그러나 대규모 뉴스 데이터에는 중복된 정보와 신뢰도가 낮은 가짜 뉴스가 포함되어 있어 데이터 품질을 보장하기 위한 체계적인 접근법이 요구된다. 이 연구는 대규모 뉴스 데이터를 자동으로 수집, 전처리, 분석하여 연도별, 월별, 일별 경향성을 도출하고, 가짜 뉴스를 탐지하며, 데이터를 카테고리별로 분류하는 통합 시스템을 제안한다. 연구에서는 네이버 뉴스 API 와 딥서치 API 를 활용해 약 3 년간 44 만 건의 데이터를 수집했으며, Spring Boot Batch 를 통해 데이터 수집을 자동화했다. 전처리 과정에서 Levenshtein 거리 알고리즘과 정규 표현식을 활용해 중복된 데이터와 광고성 문구를 제거했다. BERT 모델로 뉴스를 정치, 경제, 사회 등 주요 카테고리로 분류하여 95% 이상의 분류 정확도를 달성했으며, GPT 모델을 통해 주요 키워드를 추출하고 경향성을 분석했다. 또한, Google Fact Check Tools API 를 사용해 신뢰도가 낮은 가짜 뉴스를 탐지하고 데이터를 필터링하여 품질을 개선했다. 결과적으로 특정 시점의 주요 키워드와 트렌드를 도출하고 약 7%의 신뢰도 낮은 기사를 제거함으로써 데이터 신뢰성을 향상시켰다. 분석 결과는 시계열 그래프, 워드 클라우드, 키워드 네트워크 그래프 등으로 시각화되었으며, 데이터 분석 플랫폼 개발 가능성을 보여주었다. 이 연구는 자연어 처리 기술과 외부 API 를 융합하여 대규모 뉴스 데이터의 경향성 분석과 가짜 뉴스 탐지에 효과적인 통합적 접근법을 제시한다. 다만, 연구는 한국어 데이터에 한정되어 있어 다국어 데이터 분석으로의 확장, 신뢰도 분석 도구 다양화, 데이터 전처리 고도화가 요구된다.
      번역하기

      디지털 기술의 발전으로 뉴스 데이터의 양이 급증하며 이를 체계적으로 분석하고 활용하는 필요성이 커지고 있다. 그러나 대규모 뉴스 데이터에는 중복된 정보와 신뢰도가 낮은 가짜 뉴스...

      디지털 기술의 발전으로 뉴스 데이터의 양이 급증하며 이를 체계적으로 분석하고 활용하는 필요성이 커지고 있다. 그러나 대규모 뉴스 데이터에는 중복된 정보와 신뢰도가 낮은 가짜 뉴스가 포함되어 있어 데이터 품질을 보장하기 위한 체계적인 접근법이 요구된다. 이 연구는 대규모 뉴스 데이터를 자동으로 수집, 전처리, 분석하여 연도별, 월별, 일별 경향성을 도출하고, 가짜 뉴스를 탐지하며, 데이터를 카테고리별로 분류하는 통합 시스템을 제안한다. 연구에서는 네이버 뉴스 API 와 딥서치 API 를 활용해 약 3 년간 44 만 건의 데이터를 수집했으며, Spring Boot Batch 를 통해 데이터 수집을 자동화했다. 전처리 과정에서 Levenshtein 거리 알고리즘과 정규 표현식을 활용해 중복된 데이터와 광고성 문구를 제거했다. BERT 모델로 뉴스를 정치, 경제, 사회 등 주요 카테고리로 분류하여 95% 이상의 분류 정확도를 달성했으며, GPT 모델을 통해 주요 키워드를 추출하고 경향성을 분석했다. 또한, Google Fact Check Tools API 를 사용해 신뢰도가 낮은 가짜 뉴스를 탐지하고 데이터를 필터링하여 품질을 개선했다. 결과적으로 특정 시점의 주요 키워드와 트렌드를 도출하고 약 7%의 신뢰도 낮은 기사를 제거함으로써 데이터 신뢰성을 향상시켰다. 분석 결과는 시계열 그래프, 워드 클라우드, 키워드 네트워크 그래프 등으로 시각화되었으며, 데이터 분석 플랫폼 개발 가능성을 보여주었다. 이 연구는 자연어 처리 기술과 외부 API 를 융합하여 대규모 뉴스 데이터의 경향성 분석과 가짜 뉴스 탐지에 효과적인 통합적 접근법을 제시한다. 다만, 연구는 한국어 데이터에 한정되어 있어 다국어 데이터 분석으로의 확장, 신뢰도 분석 도구 다양화, 데이터 전처리 고도화가 요구된다.

      더보기

      목차 (Table of Contents)

      • I. 초록 iv
      • 1. 서론 1
      • 1.1 연구의 필요성 1
      • 1.2 연구 목적 1
      • 2. 연구 방법론 1
      • I. 초록 iv
      • 1. 서론 1
      • 1.1 연구의 필요성 1
      • 1.2 연구 목적 1
      • 2. 연구 방법론 1
      • 2.1 뉴스 데이터 수집 및 카테고리화 1
      • 2.2 데이터 전처리 2
      • 3. 카테고리 분류 5
      • 3.1 BERT 기반 카테고리 분류 5
      • 3.2 처리 결과 및 경향성 분석 5
      • 3.2.1 GPT 모델을 활용한 키워드 추출 5
      • 3.3 BERT 기반 뉴스 분류 및 가짜 뉴스 탐지 [5] 6
      • 3.3.1 BERT 모델 기반 뉴스 분류 6
      • 3.3.2 신뢰도 기반 필터링 6
      • 4. 가짜 뉴스 경향성 분석 8
      • 4.1. 주요 키워드 분석 8
      • 4.2. 시간적 경향성 파악 8
      • 4.3 처리 결과 8
      • 5. 신뢰도 점수 분포 분석 11
      • 5.1 신뢰도 점수 분포 11
      • 5.2 처리 결과 11
      • 6. 데이터 시각화 및 사용자 인터페이스 12
      • 6.1 시각화 도구 12
      • 6.2 처리 결과 12
      • 7. 사용자 인터페이스 15
      • 7.1 RESTful API 및 대시보드 기능 15
      • 8. 뉴스 데이터 분석 결과 15
      • 8.1 정확도 및 성능 평가 15
      • 8.2 카테고리별 성능 분석 15
      • 8.3 연도별, 월별, 일별 경향성 분석 16
      • 9. 시각화 결과 16
      • 9.1 시계열 그래프 16
      • 9.2 연관 키워드 네트워크 그래프 17
      • 9.3 워드 클라우드 17
      • 10. 가짜 뉴스 탐지 성과 [7] 21
      • 10.1 탐지 결과 21
      • 10.2 가짜 뉴스 확산 경로 분석 21
      • 10.3 추가 성과 21
      • 10.4 삽입 자료 22
      • 결론 25
      • 연구의 주요 성과 25
      • 연구의 의의 및 한계 28
      • 연구의 의의 28
      • 연구의 한계 28
      • 향후 연구 방향 29
      • Abstract 34
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼