디지털 기술의 발전으로 뉴스 데이터의 양이 급증하며 이를 체계적으로 분석하고 활용하는 필요성이 커지고 있다. 그러나 대규모 뉴스 데이터에는 중복된 정보와 신뢰도가 낮은 가짜 뉴스...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17195929
서울 : 한양대학교 공학대학원, 2025
학위논문(석사) -- 한양대학교 공학대학원 , 전기ㆍ전자ㆍ컴퓨터공학과 컴퓨터공학전공 , 2025. 2
2025
한국어
서울
; 26 cm
지도교수: 조인휘
I804:11062-200000837643
0
상세조회0
다운로드디지털 기술의 발전으로 뉴스 데이터의 양이 급증하며 이를 체계적으로 분석하고 활용하는 필요성이 커지고 있다. 그러나 대규모 뉴스 데이터에는 중복된 정보와 신뢰도가 낮은 가짜 뉴스...
디지털 기술의 발전으로 뉴스 데이터의 양이 급증하며 이를 체계적으로 분석하고 활용하는 필요성이 커지고 있다. 그러나 대규모 뉴스 데이터에는 중복된 정보와 신뢰도가 낮은 가짜 뉴스가 포함되어 있어 데이터 품질을 보장하기 위한 체계적인 접근법이 요구된다. 이 연구는 대규모 뉴스 데이터를 자동으로 수집, 전처리, 분석하여 연도별, 월별, 일별 경향성을 도출하고, 가짜 뉴스를 탐지하며, 데이터를 카테고리별로 분류하는 통합 시스템을 제안한다. 연구에서는 네이버 뉴스 API 와 딥서치 API 를 활용해 약 3 년간 44 만 건의 데이터를 수집했으며, Spring Boot Batch 를 통해 데이터 수집을 자동화했다. 전처리 과정에서 Levenshtein 거리 알고리즘과 정규 표현식을 활용해 중복된 데이터와 광고성 문구를 제거했다. BERT 모델로 뉴스를 정치, 경제, 사회 등 주요 카테고리로 분류하여 95% 이상의 분류 정확도를 달성했으며, GPT 모델을 통해 주요 키워드를 추출하고 경향성을 분석했다. 또한, Google Fact Check Tools API 를 사용해 신뢰도가 낮은 가짜 뉴스를 탐지하고 데이터를 필터링하여 품질을 개선했다. 결과적으로 특정 시점의 주요 키워드와 트렌드를 도출하고 약 7%의 신뢰도 낮은 기사를 제거함으로써 데이터 신뢰성을 향상시켰다. 분석 결과는 시계열 그래프, 워드 클라우드, 키워드 네트워크 그래프 등으로 시각화되었으며, 데이터 분석 플랫폼 개발 가능성을 보여주었다. 이 연구는 자연어 처리 기술과 외부 API 를 융합하여 대규모 뉴스 데이터의 경향성 분석과 가짜 뉴스 탐지에 효과적인 통합적 접근법을 제시한다. 다만, 연구는 한국어 데이터에 한정되어 있어 다국어 데이터 분석으로의 확장, 신뢰도 분석 도구 다양화, 데이터 전처리 고도화가 요구된다.
목차 (Table of Contents)