http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
신지수,송호윤,박종철 한국정보과학회 2022 정보과학회논문지 Vol.49 No.11
Implicitly abusive language detection is a difficult problem to solve due to diversity of expressions and absence of a clear definition. Previous studies have claimed that implicitly abusive language should be classified and defined in detail, accompanied by corresponding datasets. However, this is not only inefficient, but also hard to flexibly respond to language changes. Our work proposes an efficient and effective method that processes implicitly abusive language as Out-of-Distribution data for the first time. In our experiments, a model with the proposed method performed better than a general pre-trained model and lexicon-based models. We also performed sentiment analysis and a case study to analyze characteristics of implicitly abusive language in detail and differences between a general pre-trained model and our model. 암묵적 언어폭력 탐지는 표현의 다양성과 명확한 기준의 부재로 인하여 해결하기 어려운 문제이다. 선행연구에 따르면 암묵적 언어폭력을 세세하게 분류하고 정의함과 동시에 이에 해당하는 데이터셋을 만드는 과정이 필요하다. 그러나 이는 효율적이지 않을 뿐만 아니라 언어의 변화에 유연하게 대처하기 어렵다는 단점이 있다. 본 연구는 이를 해결하기 위한 효율적이고 효과적인 방법론으로 암묵적 언어폭력을 분포 외 데이터로 처리하는 방법을 처음으로 제안한다. 암묵적 언어폭력 탐지에서 분포 외 데이터 방법론을 적용한 사전학습 모델이 일반 사전학습 모델과 어휘 기반 모델보다 효과적임을 실험을 통해 확인하였다. 또한 감성분석과 사례 연구를 통하여 암묵적 언어폭력의 특성을 살펴보았으며 일반 사전학습 모델과 본 연구에서 제안하는 모델의 차이를 자세히 분석하였다.