KO-ToxicWebQ: 난독화된 한국어 독성 웹 쿼리 탐지 데이터셋|RISS 상세보기

국문 초록 (Abstract)

대규모 언어 모델의 웹 검색 통합은 실시간 정보 접근을 가능하게 하지만, 유해 콘텐츠 노출이라는 심 각한 위험을 초래한다. 기존 독성 탐지 벤치마크는 소셜 미디어 중심으로 설계되어, 간결하고 난독화 전략을 사용하는 웹 쿼리의 고유한 특성을 다루지 못한다. 본 연구는 Microsoft Bing 검색 로그에서 추 출한 47.7천 개의 실제 한국어 웹 쿼리로 구성된 Ko-ToxicWebQ 데이터셋을 제시한다. 데이터셋은 이 진 분류(독성/정상), 6가지 의도 기반 카테고리(도박, 노골적 콘텐츠, 성매매 등), 3가지 난독화 유형으로 주석되었다. 실험 결과, 웹 쿼리는 평균 9.06자로 기존 혐오 발언 데이터셋(43.19자)보다 극히 짧았으며, 독성 쿼리의 23.0%가 약자를, 14.9%가 문자 수준 조작을 사용했다. OpenAI의 Omni 모델은 유해 쿼리 의 2.90%만 탐지했으며, 대부분의 최첨단 대규모 언어 모델이 macro F1 점수 0.35–0.55만 달성했다. GPT-4o가 F1 점수 0.8154로 최고 성능을 보였으나, 실제 배포에는 여전히 부족하다. 그러나 Ko- ToxicWebQ로 미세조정 시 Qwen-3B와 Exaone-3B의 F1 점수가 0.14에서 0.58-0.60으로 급증하여, 도메 인 특정 훈련 데이터의 중요성을 입증했다. 본 연구는 한국어 독성 탐지를 위한 첫 대규모 공개 데이 터셋을 제공하며, 웹 검색 맥락에서 난독화 전략의 중요성을 강조한다. Ko-ToxicWebQ가 더 안전한 검 색증강생성 시스템 개발을 위한 미래 연구를 촉진하기를 기대한다.

번역하기

대규모 언어 모델의 웹 검색 통합은 실시간 정보 접근을 가능하게 하지만, 유해 콘텐츠 노출이라는 심 각한 위험을 초래한다. 기존 독성 탐지 벤치마크는 소셜 미디어 중심으로 설계되어, 간...

목차 (Table of Contents)