
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Forging Hate Speech Differently : A Comparative Analysis of Japan and Korea
박예지 서울대학교 국제대학원 2016 국내석사
Hate Speech expresses and incites hatred against a person or a group of individuals on a basis of particular features such as race, nationality, gender, religion, and sexual orientation. With the development of the Internet communication today, hate speech has expanded into cyberspace. Following the precedents in America and Europe, far-rightists in Japan and Korea also began to spread hate speech over the Internet. Netouyo in Japan and ‘Ilbe’ in Korea are both known as far-right hate speech groups on the Internet. Netouyo is known to primarily target the Korean and the Chinese - foreign groups, while ‘Ilbe’ is known to mainly target females, people from Jeolla province, and leftists - domestic groups. The purpose of this paper is to compare hate speech of Netouyo and ‘Ilbe’ and then explain how the two groups distinctively selected their targets. For the comparative analysis, comments of hate speech were collected from the two groups’ websites and classified according to each target and the developmental stages of hate speech. Frequently appearing keywords were also selected and counted to analyze contents of hate speech in the framework of the integrated threat theory. From this analysis, it was shown that Netouyo’s hate speech is more frequent than ‘Ilbe’s while ‘Ilbe’s hate speech is more severe in terms of the levels of hate speech than Netouyo’s. Moreover, it was observed that the two hate speech groups both had negative stereotypes of their targets but perceived contrasting kinds of specific threats from the targets, which led them to select distinctive targets.
강시진 경희대학교 평화복지대학원 2022 국내석사
How is a society where hate is rampant created? Even at a time when human rights and equal ideas are more strongly emphasised than any other in history, we are seeing the reality in Myanmar that the Rohingya are being suppressed due to their ethnic and religious background. How could Islam and the identity of Rohingya come to be seen as the enemies of Myanmar? Threatening individuals or groups on the basis of a fixed attribute can occur due to prejudice and discrimination against a particular identity. This paper seeks to examine this process through the cases of the Holocaust and the Rohingya Genocide. Both share the common points that the specific identities of ‘Jews’ and ‘Rohingya’ were excluded from society and the political parties in power and the state mainstream media officialised the existence of daily hate speech. This is no different from acknowledging the exclusion of minorities. This paper does not specifically deal with how some individuals come to possess an unfavourable perception of others. However, if biased opinions are expressed around specific attributes such as major groups, regions, races, and religions, the historical context of their interests should be examined. In other words, hate speech is not one individual’s opinion but rather a statement of a ‘social and historical context’ that clearly contains the intention to disparage. In particular, if this opinion is accompanied by violent words and actions, it is no longer merely a personal issue but a social problem. Even though freedom of expression transcends private interests and infringes on the freedom of others, the failure of the state and society to control this "instinct" by civilisation, can result in this ‘hate mechanism’ becoming the basis of people's actions and a systemic societal issue. 혐오가 만연한 사회는 어떻게 조성되어질까? 인권과 평등 사상이 그 어느 때보다 강하 게 강조되는 이 시기에도 우리는 미얀마에서 로힝야가 소수민족 혹은 무슬림이라는 이유로 탄압받는 현실을 보고 있다. 어떻게 이슬람과 로힝야라는 정체성은 미얀마에게 적이 될 수 있었을까? 고정된 속성을 이유로 개인 혹은 집단에게 위협을 가하는 것은 해당 속성에 대한 편견과 차별 때문에 가능하다. 이 논문은 그 과정을 홀로코스트와 로힝야 제노사이드 사례를 통해 살펴보고자 한다. 두 사례 모두 ‘유대인’과 ‘로힝야’라는 특정한 정체성이 사회에서 배제되었다는 공통점을 가 지고 있다. 정치세력과 국가는 일상적 수준에 머물렀던 혐오표현을 주류화하고 공식화하였 다. 이는 소수민족에 대한 배제를 인정하는 것과 다름없다. 이 논문은 개인이 어떻게 타인에 대한 혐오적 인식을 가지게 되었는지를 다루지는 않는 다. 그러나 편향된 의견이 집단, 지역, 인종, 종교 등 특정한 속성을 중심으로 발현되는 경 우에는 그 이해관계가 가지는 역사적 맥락을 살펴보아야 한다. 즉 혐오표현은 개인의 사사 로운 의견이 아니라, 폄하의 의도가 분명히 담긴 ‘사회적 그리고 역사적 맥락’의 발언이다. 특히 이러한 의견이 폭력적인 언행과 동반된다면 그것은 더 이상 개인적인 영역이 아닌 사 회의 ‘문제’로 확대된다. 표현의 자유가 사사로운 영역을 뛰어넘어 다른 이의 자유를 침해할 때에도 국가와 사회가 이 ‘본능’을 문명으로 통제하지 않으면 이는 곧 사람들의 행동 준거 가 되고 사회의 기제가 될 수 있다.
Analyzing the patterns of hate speech : Topic modeling of Online community postings in South Korea
Gim, Minseok Sungkyunkwan University 2024 국내석사
디지털 전환이 진전되고 사회적 긴장이 고조됨에 따라 온라인 혐오 표현에 대한 학문적 관심이 증가하고 있다. 온라인 커뮤니티는 정보 공유와 토론을 위한 긍정적인 플랫폼으로 기능하지만 동시에 취약한 집단을 대상으로 한 혐오 표현의 확산을 촉진하여 사회적 갈등을 악화시키기도 한다. 온라인 커뮤니티에서의 혐오 발언에 대한 기존 연구는 그 범위가 제한적이며 특정 유형의 혐오에 초점을 맞추는 경우가 많아 혐오 표현의 특성과 구조에 대한 포괄적인 분석은 미흡했다. 본 연구는 11개의 한국 온라인 커뮤니티에서 2001년부터 2022년까지를 포함하는 약 200,000개의 혐오 관련 게시물을 수집하고, 토픽 모델링과 워드 임베딩을 결합한 ETM(Embedded Topic Model) 기법을 사용하여 분석했다. 본 연구는 온라인 혐오 표현의 구조에 대한 보다 객관적인 관점을 제공하기 위해 7가지 혐오 유형과 키워드를 식별하였다. 연구 결과, 온라인 커뮤니티에서 정치, 성별, 연령이 주요 혐오 유형으로 나타났으며, 장애인, 외국인, 성적 소수자에 대한 혐오는 상대적으로 주변적인 것으로 나타났다. ETM 분석을 통해 온라인 게임 및 여타 문화 장르와 같은 다양한 플랫폼을 통해 혐오가 하나의 유머와 별칭으로서 확산되는 숨겨진 패턴을 확인하였다. 법원, 검찰, 정당, 미디어, 교육 등 사회적 기관은 혐오의 대상이 되는 한편, 혐오에 대응하는 행위자로서 논의되기도 했다. 본 연구는 온라인 혐오 발언이 커뮤니티 내 사회적 갈등을 반영하고 심화시키는 방식을 밝힘으로써 혐오에 대한 사회학적 연구에 기여한다. 온라인 혐오 담론의 구조를 밝힘으로써 문화 사회학의 이해를 확장하고, AI 중심의 혐오 연구를 넘어 사회 과학 연구를 확장시킨다. As digital transformation advances and social tensions rise, scholarly interest in online hate speech grows. While online communities serve as positive platforms for information sharing and discussions, they also fuel the spread of hate speech targeting vulnerable groups, exacerbating social conflicts. Previous research on hate speech in online communities has been limited in scope and often focused on specific types of hatred, neglecting broader analyses of its characteristics and structures. This study collected around 200,000 hate related posts from 11 Korean online communities spanning from 2001 to 2022 and used the ETM technique, which combines topic modeling and word embedding. This study also identifies seven hate types and keywords, aiming to provide a more objective view of online hate speech structures. The findings highlight politics, gender, and age as primary types of hate in online communities, with hate towards disabled individuals, foreigners, and sexual minorities being relatively peripheral. Through ETM analysis, hidden patterns in hate discourse are identified, showing how hate spreads through various platforms like online games and cultural genres. Social institutions such as the court, prosecution, political parties, media, and education are targets of hate, while discussions also involve actors responding to hate. This study contributes to sociological research on hate by revealing how online hate speech reflects and intensifies social conflicts within communities. By elucidating the structure of hate discourse online, it expands cultural sociology's understanding and broadens research in the social sciences beyond AI centric hate studies.
Legal approach to Hate Speech Regulation
이은나래 Hankuk Univeristy of Foreign Studies. Graduate Sch 2016 국내석사
Legal approach to Hate Speech Regulation In recent years, hate speech and freedom of expression has been arisen as controversial issue in universal. Tragedy of Charlie-Hebdo drew the attention to the debate on hate speech and freedom of expression at global level. Whilst the debate on how to guarantee both values which the freedom of expression and equality in a country where has the tradition of hate speech regulation, a sort of hate speech case was ongoing for the first time in Korea. It showed the difficulty in protecting of the public discourse even there is protection law against the discrimination unless people understand each other’s dignity as an autonomous human being as well as verify the difference between the reasonable criticism and hate speech. In this regard, this study will focus on some points regarding hate speech and its regulation. Firstly, it will verify the feature of the hate speech distinguished from other offenses in considering social and historical contexts. Second, as commented above, it will argue the purpose and value of the regulation on hate speech especially relating to the civil rights. Thirdly, it will discuss how to approach to hate speech regulations by comparing various legal dimensions such as criminal law, constitution and human rights law. The question will be concentrated on what is the element constituting the legitimacy of criminal law as an approach to hate speech. And ultimately, it will suggest what legislation on hate speech is appropriate in Korea.
Beyond Criminalization : The Speaking Back Policy as a Remedy for Hate Speech
This paper presents the argument that a refined version of Katharine Gelber’s speaking back policy can better serve as a remedy for harms from hate speech than legal restrictions, such as criminal punishment. The speaking back policy requires that the government provide institutional, material, and educational support to enable victims of hate speech to overcome its silencing effects and to better counter it through their own speech. It has the potential to be a prototype of a remedy, yet it needs a few theoretical modifications. Specifically, the paper consists of three parts. The first part is devoted to a claim that legal restrictions of hate speech cannot be a proper remedy. It shows that they are not helpful to our efforts to eradicate the background social hatred and discrimination that both enable and are aggravated by hate speech. The second part delivers a detailed explanation of why the speaking back policy has the potential to serve as a better remedy for hate speech harms than legal restrictions. Supporting Gelber’s claim that the speaking back policy not only ameliorates the harms of hate speech but also enables victims to exercise equal rights to free speech, the paper describes how this policy is a more comprehensive, fundamental, flexible approach than legal restrictions. The third part proposes two modifications to fully realize the strengths of the speaking back policy. First, it is argued that Gelber’s reliance on Martha Nussbaum’s capabilities approach to support the claim that victims need governmental support is under-motivated because Nussbaum’s arguments do not directly pertain to the issue at hand. As a constructive suggestion, Seana Shiffrin’s thinker-based theory of freedom of speech is incorporated into the theoretical framework of the speaking back policy to draw a tighter connection between moral agency and hate speech policy. Second, Gelber does not take into account the critical possibility that victims’ counter-speech itself, in some configurations of the relationships between the perpetrators and victims of hate speech, can constitute hate speech. As it stands, Gelber’s model cannot sufficiently identify the complexities of hate speech and counter-speech. Given this possibility, governmental support for victims’ counter-speech can only be justified under the condition that it does not constitute hate speech. The speaking back policy, therefore, should be modified to exclude hate-speech-as-counter-speech from governmental support. 이 논문은 혐오표현의 해악을 해결하기 위하여 제안된 방법들 가운데 캐서린 겔버(Katharine Gelber)의 ‘맞받아치기 정책(Speaking Back Policy)’이 형사처벌 등 법적 제한보다 더 나은 방법이 될 수 있다는 주장을 제시한다. 맞받아치기 정책에 따르면, 정부는 혐오표현의 피해자들이 혐오표현을 맞받아침으로써 그들을 침묵시키는 혐오표현의 힘을 극복하고 그 해악에 대항할 수 있도록 제도적, 물질적, 교육적 지원을 제공해야 한다. 겔버가 제안하는 정책은 혐오표현에 대한 적절한 대응이 될 수 있지만, 그러기 위해서는 몇 가지 이론적 수정이 필요하다. 구체적으로, 이 논문은 다음의 세 가지 논변을 전개한다. 가장 먼저, 형사처벌을 중심으로 한 법적 제한이 왜 혐오표현의 적절한 대응이 될 수 없는지를 보인다. 사회적 혐오와 차별은 어떤 표현이 혐오표현으로 성립하도록 하는 필요조건이자, 혐오표현이 발생시키는 중요한 해악 중 하나이다. 그런데 혐오표현에 대한 법적 제한은 사회적 혐오와 차별을 근절하고자 하는 공동의 노력에 도움이 되지 않는다. 그 다음으로, 왜 맞받아치기 정책이 혐오표현의 해악을 해결하기 위해 더 나은 접근이 될 수 있는지 설명한다. 겔버에 따르면 맞받아치기 정책은 혐오표현의 해악을 개선할 뿐 아니라 피해자들이 침묵당하지 않고 표현의 자유에 대한 동등한 권리를 행사할 수 있도록 돕는다. 이 논문은 이 지점에 주목하여 맞받아치기 정책이 법적 제한에 비해 더 포괄적이고, 근본적이며, 유연한 접근이라고 주장한다. 마지막으로, 맞받아치기 정책이 가진 강점을 실현하기 위해서는 이론적 차원에서 두 가지 핵심적인 수정이 필요함을 논증한다. 첫째, 겔버는 정부가 혐오표현 피해자들의 맞받아치는 표현을 지원할 의무를 진다는 주장을 뒷받침하기 위해 마사 누스바움(Martha Nussbaum)의 능력이론(capabilities theory)을 활용한다. 그러나 누스바움의 능력이론이 표현(speech)의 문제와 직접적으로 연결되지 않는다는 점을 고려할 때, 인간의 삶에서 표현이 갖는 중요성을 더 직접적으로 설명할 필요가 있다. 이 논문은 이러한 관점에서 셔나 쉬프린(Seana Shiffrin)의 표현의 자유에 대한 사유자 중심 이론(thinker-based theory)을 활용하여 인간의 도덕적 행위력(moral agency)과 혐오표현 정책 간에 긴밀한 관계가 있음을 보임으로써 맞받아치기 정책의 이론적 체계를 강화하고자 시도한다. 둘째, 겔버는 혐오표현 가해자와 피해자들 간의 관계를 구성하는 다양한 변수에 따라 피해자의 대항표현(counter-speech)이 그 자체로 혐오표현을 구성할 수 있다는 점을 고려하지 않는다. 겔버가 제시한 혐오표현-대항표현의 구분 모델은 이러한 복잡성을 충분히 반영하지 못한다. 이 점에서, 맞받아치기 정책은 혐오표현을 구성하는 대항표현을 정부 지원 범위에서 제외하는 방향으로 수정되어야 한다.
A Theory-Driven Prompting Method for Hate Instigating Speech Detection by Reasoning Distillation
Hyoungjun Park 고려대학교 대학원 2024 국내석사
While many prior studies have applied computational approaches, such as machine learning, to detect and moderate hate speech, only scant attention has been paid to the task of identifying the underlying cause of hate speech. In this study, we introduce the concept of hate instigating speech, which refers to a specific type of textual posts on online platforms that stimulate or provoke others to engage in hate speech. The identification of hate instigating speech carries substantial practical implications for effective hate speech moderation. Rather than targeting individual instances of hate speech, by focusing on their roots, i.e., hate instigating speech, it becomes possible to significantly reduce the volume of content that requires review for moderation. Additionally, targeting hate instigating speech enables early prevention of the spread and propagation of hate speech, further enhancing the effectiveness of moderation efforts. However, several challenges hinder researchers from addressing the identification of hate instigating speech. First, there is a lack of comprehensive datasets specifically annotated for hate instigation, making it difficult to train and evaluate computational models effectively. Second, the subtle and nuanced nature of hate instigating speech (e.g., seemingly non-offensive texts serve as catalysts for triggering hate speech) makes it difficult to apply off-the-shelf machine learning models to the problem. To address these challenges, in this study, we have developed a dataset specifically designed for the task of identifying hate instigating speech. Furthermore, we introduce a theory-driven approach to detect hate instigation by the prompt-based approach leveraging natural language explanation (NLE) generation technique by large language models (LLMs). To this end, we employed automated reasoning distillation with chain of thought (CoT) prompt. Our method identified hate instigating speech by evaluating their potential to incite further hateful responses, particularly focusing on the nuances of scapegoating and political polarization in social dynamics. 여러 선행 연구들이 온라인 플랫폼에서 혐오 발언을 탐지하기 위한 기계 학습 기반의 방법론을 제시했으나, 혐오 발언의 근본 원인인 혐오 조장 발언(hate instigating speech)을 파악하는 시도는 부족하다. 개별 혐오 발언보다 그 근원인 혐오 조장 발언에 초점을 맞추면 검토해야 할 플랫폼 내 게시글의 양을 줄일 수 있다. 그러나 혐오 조장 발언이 표면적으로는 공격성이 없는 경우가 있어, 기존의 혐오 탐지 방법론으로는 이를 식별하기 어렵다. 따라서 본 연구에서는 플랫폼 내 혐오 확산을 미연에 탐지하기 위해 혐오 조장 발언이라는 새로운 개념을 정의하고, 이에 대한 데이터셋을 구축하였다. 더불어 언어 모델의 추론을 활용한 혐오 조장 발언 탐지를 위해 생각의 사슬 (chain-of-thought) 프롬프트 기반 자연어 설명 (natural language explanations) 생성 방법을 제시한다. 특히 본 연구는 혐오 조장의 사회적 이론 맥락에 주목하여 희생자 이론 (scapegoating theory)과 정치적 편향성 (political polarization)에 기반한 이론적 프레임워크를 제안하고, 이를 통해 혐오 조장 발언을 탐지하는 방법을 새롭게 제안한다.
Explainable Hate Speech Detection through Masked Rationale Prediction
Hate speech detection is important in that the spread of hate speech strengthens critical social discrimination against its target social group not only online but also in the real world. We propose Masked Rationale Prediction (MRP) to improve the performance of hate speech detection considering two important aspects—the model bias and explainability. Understanding the context of hate speech is important for hate speech detection. Hate speech cannot be identified based solely on the presence of specific words considered hateful. However, existing models are easily biased on the specific expressions and make wrong detection results. Even though they correctly predict, the model rationale is often not explained in a convincing manner. Thus, to implement a hate speech detection model, bias and explainability should be considered. MRP is a task to predict the masked human rationales—snippets of a sentence that are grounds for human judgment—by referring to surrounding tokens combined with their unmasked rationales. the human rationales are randomly masked and inputted into the model by being combined with each of the tokens. We pre-finetune a pre-trained model on MRP as an intermediate task and then finetune on hate speech detection. As the model learns its reasoning ability based on rationales by MRP, it performs hate speech detection robustly in terms of bias and explainability. The proposed method generally achieves state-of-the-art performance in various metrics, demonstrating its effectiveness for hate speech detection.
Jun, Hyo Min 한국외국어대학교 국제지역대학원 2025 국내석사
During the COVID-19 pandemic in 2019, the world witnessed not only the rapid spread of the virus but also a surge in societal hate and discrimination. This phenomenon was evident globally, with regions, races, and other groups associated with the coronavirus becoming targets of hate speech and prejudice. Such stigmatization marginalized these groups, reinforcing discrimination and exclusion during a time of global crisis. In response, the United Nations (UN) and the World Health Organization (WHO) raised alarms about the dangerous escalation of hate speech and called on the international community to address this issue through solidarity and commitment to human rights. The pandemic's increased expressions of hate have necessitated deeper reflection on the potential need for legal regulation to counteract such divisive behaviors. Hate speech disrupts social cohesion, stigmatizes specific groups, and isolates vulnerable or minority communities, raising critical questions about whether it should be legally regulated. This discourse also inevitably intersects with the question of freedom of expression, an essential pillar of democratic societies. This thesis seeks to explore the complexities of regulating hate speech within the framework of democratic rights. First, it will examine the right to freedom of expression as enshrined in international human rights law and the extent to which it permits the regulation of hate speech. Second, it will analyze hate speech laws and relevant case laws in the United States, Canada, and Europe, focusing on how these regions balance the regulation of hate speech with the protection of freedom of expression. Through this comparative analysis, the study will identify the distinctive characteristics of these legal frameworks. Lastly, the study will delve into South Korean laws and judicial precedents concerning hate speech and freedom of expression. By comparing these domestic approaches with international and regional legal frameworks, the thesis will assess whether South Korea needs to enact specific legislation to regulate hate speech in its unique social and cultural context.
민주주의의 발전과 함께 확대·정립되어 온 표현의 자유는 헌법에 의해 최대한 보장되어야 하는 기본권이자 민주주의 성립의 전제요소로 자리매김하고 있다. 현대 자유민주주의국가는 표현의 자유의 제한입법을 축소하는 흐름 속에서 20세기 새로이 가시화된 혐오표현에 대해서 어떻게 취급해야 하는지 고민해왔다. 많은 서구의 자유민주주의국가에서 혐오표현 제한입법이 이루어지고 있는 동시에 그에 대한 회의적 시각도 여전히 존재한다. 최근 한국에서도 혐오표현이 사회문제로 제기되면서 그 제한 가능성이 논해지기 시작하는 도상에 있다. 그러나 혐오표현의 제한가능성을 논하기에 앞서 모호하게 사용되고 있는 혐오표현의 개념을 먼저 확정할 필요가 있다. 이를 위해 혐오표현의 개념요소 및 유형 분류를 시도하였다. 혐오표현은 차별기반 표적집단성과 적대성을 개념요소로 가진 표현행위이다. 첫째, 차별기반 표적집단성은 집단적 차별성과 차별의 역사성의 양자를 만족하는 특정 속성을 가진 집단이다. 집단적 차별성은 변화 불가능한 인격적 구성요소로서의 속성을 이유로 그 속성으로 묶일 수 있는 집단 전체에 대해 불합리한 차별이 이루어지고 있는 것을 의미한다. 차별의 역사성이란 불합리한 차별이 장기간에 걸쳐 사회전체 영역으로 침투되어 사회의 지배적인 관념으로 정착됨으로 인하여 그 속성에 대한 부정적인 전형화가 일상화, 일반화된 것을 의미한다. 혐오표현은 이를 만족하는 표적집단에게 향해지는 적대적 표현이다. 둘째, 이때 적대성은 개인이 가지는 강렬한 혐오나 적대감의 표출을 의미하는 것이 아니라, 당해사회에 존재하는 표적집단 구성원에 대한 부정적 전형화와 편견에 기반한 배제 및 그 정당화를 의미한다. 표적집단을 구분 짓는 특정 속성이 국가나 사회에 악영향을 미치는 것으로 단정 짓고 이를 근거로 해당 표적집단 구성원들을 제거하거나 교정할 것을 요청하는 것을 의미한다. 따라서 Ronald Dworkin이 표적집단이 사회적 소수자라는 점으로부터 혐오표현을 차별적 표현으로만 이해하거나, Robert Post가 적대적 표현 중 극단성을 가진 것을 혐오표현으로 이해하는 것은 수용하기 어렵다. 한편, 혐오표현의 개념을 보다 정확하게 이해하기 위해 혐오표현의 유형을 분류할 필요가 있다. 특히 목적대상에 따른 유형과 진술방식에 따른 유형을 기준으로 각각 혐오표현을 표적형·형식적 혐오표현과 선동형·실질적 혐오표현으로 분류하였다. 이들 유형은 혐오표현의 개념을 구체적으로 이해시켜 줄 뿐만 아니라 각각의 헌법적 평가가 달라진다는 점에서 분류의 실익이 있다. 따라서 이 유형들을 염두에 두고 한국 헌법상 혐오표현이 위치한 지점과 그에 따른 주요한 법적 쟁점을 확인하고, 혐오표현의 제한이 헌법적 정당성을 획득할 수 있는지를 검토하였다. 첫째, 순수한 사실 주장이 표현의 자유의 보호영역에서 배제될 수 있다는 점에서 왜곡 혹은 허위의 사실을 포함한 선동형·실질적 혐오표현의 보호영역 해당여부가 문제된다. 선동형·실질적 혐오표현에 포함된 사실주장은 허위사실을 포함하는 보다 넓은 왜곡된 사실이라는 점, 나아가 부정적 편견으로 인한 왜곡을 인식시키기 위해서는 사회적으로 공론화시킬 필요성이 있다는 점에서 선동형·실질적 혐오표현을 보호영역에서 배제시키기 어렵다. 둘째, 혐오표현 제한의 목적은 표적집단 구성원의 존엄성 보장과 공론장 왜곡의 방지이다. 혐오표현은 표적집단 구성원에게 감정적 불쾌감이 아니라 현실적인 공포를 부여하며 자신의 인격을 구성하는 일부를 상처입힘으로써 존엄성을 침해한다. 동시에 표적집단 구성원이 공론장에 참여할 실질적인 기회를 박탈하고, 표적집단에 대한 잘못된 정보와 편견을 확산시킴으로써 공론장을 왜곡시킨다. 후자의 해악성은 특히 선동형·실질적 혐오표현에서 강하게 나타난다. 셋째, 혐오표현은 표현의 자유의 헌법적 가치에 비추어 높은 가치를 가지는 것으로 볼 수 없으나, 표현내용에 대한 제한에 해당하기 때문에 그 제한을 위해서 엄격한 요건과 심사가 이루어져야 한다는 점을 부정할 수 없다. 또한 선동형·실질적 혐오표현은 주로 정치적 표현의 외형을 띠고 있기 때문에 이에 대한 제한은 정치적 표현의 위축을 가져올 수 있다. 따라서 정치적 표현을 위축시키는 것을 최소화하면서도 이러한 혐오표현이 끼치는 법익 침해를 최소화할 수 있는 제한의 한계선을 세심하게 그어야 한다. 이를 위해 선동형·실질적 혐오표현에 대한 제한 요건은 발화자의 악의와 사회적 파급력을 추가적으로 고려하여야 한다. 넷째, 공직자의 혐오표현은 더 높은 제한이 정당화된다. 공직자는 공직수행자로서 신뢰를 주어야 하며 국민의 봉사자로서 헌법에 반할 가능성이 있는 표현을 자제할 헌법적 요청이 있다. 현행법상 혐오표현은 모욕죄나 명예훼손죄의 구성요건을 만족시키는 경우 등 극히 일부의 경우를 제외하고는 제한되기 힘들며, 따라서 입법적 대응 가능성을 살펴보아야 한다. 그리고 이를 위해 다음과 같은 기준을 세울 수 있다. 첫째, 혐오표현은 일반적인 명예훼손 및 모욕표현에 비해 법익침해 정도가 크기 때문에 제한 강도도 상대적으로 높아야 한다. 둘째, 혐오표현의 유형에 따라 제한 강도에 차이를 두어야 한다. 셋째, 혐오표현의 발화자에 따라 제한 강도에 차이를 두어야 한다. 나아가, 혐오표현 제한이 유효하게 기능하기 위한 정책적 선결조건으로 국가기관과 공직자에 대한 인식교육 및 국가기관과 공무원 구성의 다양성 확보가 전제되어야 하며, 혐오표현을 발생시키는 토양인 표적집단에 대한 차별을 철폐하기 위하여 국가의 중장기적인 정책대응이 요청된다. Freedom of expression, which has developed and expanded with the progress of democracy, is a fundamental rights guaranteed by the consitutional law and is a prerequisite for the democracy. The contemporary democracies have long considered as to how to treat or regulate hate speech, an issue that emerged and became visible in the 20th century. Many western countries have hate speech laws, and yet there has been much debates and doubts about hate speech regulation. Recently, as hate speech came to receive much attention as a social issue of concern in South Korea, the legal regulation of hate speech became a topic of debate. However, in order to discuss the possibilities of legal regulation of certain expression, it is inevitable to first define the concepts that define hate speech. This is especially required when the concept and the usage of certain expression are ambiguous and used in various ways, such as the case with Korea recently. Therefore, this dissertation starts with presenting concepts that constitute hate speech and categorizes its types. Hate speech is an act of expression that has “target group” and “hostility” as its concepts. First, “target group” refers to a group that meets both qualities of “collective discrimination” and “historicity of discrimination.” “Collective discrimination” is an unreasonable form of discrimination imposed upon a particular group based on certain distinguished, unchangeable elements of their characteristics shared by the members of the group. “Historicity of discrimination” connotes a state in which a negative stereotype of a particular quality or characteristic of a group as a dominant social concept is widespread and immersed into everyday life as discrimination became penetrated into every corner of the society for a long time. Hate speech is an hostile form of expression that poses harm to a target group that meets the above conditions. Second, the quality of “hostility” of hate speech, does not mean an extreme hate or dislike, but negative bias-based exclusion and its justification about the members of the target group. It demands for elimination, removal or conversion of the members of the target group based on the assumption that the qualities that define the target group is harmful to the society and the country. Therefore, in this point of view, Ronald Dworkin's understanding that hate speech is simply a discriminative expression, or Robert Post's view on hate speech as extreme dislike must be reconsidered. On the other hand, to better understand the concepts of hate speech, it is worthwhile to attempt to categorize the types of hate speech. In particular, I offer to categorize hate speech into two different types based on object of target and form of expression: “targeted hate speech in form” and “inciting hate speech in substance.” This categorization is meaningful in that it not only enables a better understanding of the concepts of hate speech, but also a differentiated constitutional evaluation. Therefore, having these different types in mind, I surveyed key legal points about the question of hate speech within the Korean constitutional law and reviewed if regulation of hate speech can be constitutionally justified. First, is “inciting hate speech in substance”, which usually includes distorted or false statements of fact about target group, conforms to the scope of protection (Schutzbereich) of the freedom of expression? Yes. Because its fact can be viewed more as a form of distorted claim than as that of false statement, which falls into a more broad range. Therefore, exclusion of distorted fact out of the scope of protection can lead to excessive limitation of freedom of expression. Furthermore, it is necessary to publicize the issue to make people become aware of the distortion due to negative bias. Second, legally protected interests (Schutzgüter) infringed by hate speech is a dignity of the members of target group. It also prevents the public sphere from distortion. Hate speech leaves real fear to the target group beyond emotional disgust. By damaging the part of what constitutes their personalities, hate speech harms the target group's dignity. At the same time, hate speech prevents the target group from participating in the public sphere and distorts it by spreading wrong information and bias about the target group. The cruel impact of the latter strategy is strongly shown in the “inciting hate speech in substance.” Third, hate speech, measured by the constitutional value of freedom of speech, cannot be defined as holding high values. Nevertheless, it is undeniable that strict criteria and proportionality test must be applied to hate speech regulation as it is a content-based regulation restriction. Especially when it comes to “inciting hate speech in substance”, further strict criteria should be applied. Because it usually appears as a form of political expression, limiting it may result in chilling effect. Therefore, to reduce the risk of regulating political expressions, the basis for regulation must be carefully defined. I suggest that to regulate “inciting hate speech in substance”, the malice of the speaker as well as the social impact of the remark must be considered additionally. Fourth, hate speech by public officials should be more highly regulated and is justified as so. Public officers as servants of the people are bound to constitutional requirements to refrain expressions that might challenge the constitution. According to the current Korean law, hate speech, except very few exceptions, is difficult to be regulated. So, finally, given what I have argued thus far, I suggest three criteria in the case of legislating hate speech regulation: First, because hate speech present more severe infringement of legal interests than defamation or insult present, the degree of regulation must be also higher. Second, the degree of regulation must take the type of hate speech into consideration. Third, the degree of regulation must also be differentiated according to who the speaker is. Additionally, to make the regulation work effectively, an awareness education for the state agencies and officials as well as having diversity within the state agents themselves is essential as a form of state policy. Furthermore, it is demanded that the state implement a long-term policy measure to end discrimination, a root of hate speech.
Two generalizable training approaches for implicit hate speech detection
김영욱 Graduate School, Yonsei University 2023 국내석사
온라인상에서 혐오 콘텐츠가 늘어나면서 혐오 표현 자동 탐지가 주목받고 있다. 혐오 표현 중, 욕설과 같은 명시적인 단서가 없는 암묵적 혐오 표현은 식별하기 어렵다. 암묵적 혐오 표현 데이터 세트를 활용하여 사전 학습된 언어 모델을 미세 조정하여 암묵적 혐오 표현을 탐지하려는 시도가 있었다. 해당 방식으로 미세 조정된 모델은 데이터 세트 내 평가(in-dataset evaluation)에서 만족스러운 성능을 보여주었다. 이때, 데이터 세트 내 평가는 한 데이터 세트의 훈련 세트에서 훈련된 모델이 동일한 데이터 세트의 테스트 세트에서 평가되는 것을 의미한다. 그러나, 우리는 동일한 테스크를 위한 다른 데이터 세트의 테스트 세트에서 평가하는 교차 데이터 세트 평가(cross-dataset evaluation)에서 모델 성능이 지속적으로 저하된다는 것을 관찰했다. 우리는 이러한 암묵적 혐오 표현 탐지기의 일반화 문제를 1) 미세 조정(fine-tuning)과 2) 사전 훈련(pre-training)의 두 가지 관점에서 해결하고자 한다. 먼저, 미세 조정 측면에서, 추가적인 대조 손실 함수(contrastive loss)를 활용할 것을 제안한다. 특히, 혐오 표현에 대하여, 대조 학습(contrastive learning)을 위한 긍정 샘플로 혐오 표현의 함축적 의미를 활용할 것을 제안한다(ImpCon). 혐오 표현들 사이의 공통된 함축적 의미가 존재한다는 점을 고려할 때, ImpCon이 하나의 혐오 표현 그룹과 그들의 공통된 함축적 의미를 유사한 표현 공간에 투영하도록 모델을 훈련함으로써 더 나은 일반화가 가능할 것이다. 미세 조정 과정에 ImpCon을 함께 활용함으로써, 훈련된 모델은 다른 미세 조정 방법에 비해 교차 데이터 세트 평가에서 우수한 성능을 보여준다. 사전 훈련의 관점에서, 암묵적 혐오 표현 탐지를 위한 언어 모델을 사전 훈련하는 방법을 제안한다. 암묵적 혐오 표현 탐지를 위한 대규모 기계 생성 데이터 세트(ToxiGen)가 최근 발표되었으며, 해당 데이터 세트를 구성하기 위해 기계(GPT-3)가 저자들이 의도한 속성을 가진 표현을 생성했다. 구체적으로, 특정 속성을 공통으로 가지는 예제 문장들의 집합(즉, 프롬프트)이 기계의 그러한 행동을 장려하기 위해 신중하게 큐레이션 되었다. 우리는 기계 생성 데이터 세트를 충분히 활용하여 암묵적 혐오 표현 탐지를 위한 언어 모델을 사전 훈련할 수 있는 ConPrompt를 제안한다. 기계가 생성한 문장에 대하여 ConPrompt는 해당 문장이 유래된 프롬프트 속 예제 문장을 대조 학습을 위한 긍정 샘플로 활용한다. ToxiGen 데이터 세트에 대하여 ConPrompt 방법으로 BERT를 추가 사전 훈련함으로써, 우리는 암묵적 혐오 표현 탐지에 있어서 다른 사전 훈련된 언어 모델보다 더 나은 일반화 능력을 보여주는 ToxiGen-ConPrompt를 제안한다. 또한, 암묵적 혐오 표현과 관련된 테스크에 대한 ToxiGen-ConPrompt의 바람직한 표현 품질을 관찰한다. The automatic detection of hate speech is drawing attention as hateful content increases online. Among hate speeches, implicit hate speech is difficult to identify since there is no explicit cue such as a swear word. There have been some approaches to detect implicit hate speech by fine-tuning pre-trained language models on an implicit hate speech dataset. The fine-tuned models showed satisfying performance on in-dataset evaluation where a model trained on the training set of a dataset is evaluated on the test set of the same dataset. However, we observe that the models are consistently degraded on cross-dataset evaluation where a model is evaluated on the test set of a different dataset for the same task. We address the generalization problem of implicit hate speech detectors from two perspectives: 1) fine-tuning, and 2) pre-training. In terms of fine-tuning, we propose an additional contrastive loss in the fine-tuning process. Given a hateful post, we propose to leverage an implication of the hateful post as a positive sample for contrastive learning (ImpCon). Considering common underlying implications among hate speeches, we hypothesize ImpCon would improve the generalization ability by training a model that projects a group of hateful posts and their common implication into a similar representation space. By incorporating ImpCon into the fine-tuning process, the trained models show outperforming performance on cross-dataset evaluation compared to other fine-tuning approaches. In terms of pre-training, we propose a method to pre-train a language model for implicit hate speech detection. A large-scale machine-generated dataset (ToxiGen) for implicit hate speech detection has recently been released, where a machine (GPT-3) generated statements with some desired properties. Specifically, a set of example statements (i.e., a prompt) with common desired properties was carefully curated to encourage such behavior. We propose ConPrompt which can fully leverage the machine-generated dataset to pre-train a language model for implicit hate speech detection. Given a machine-generated statement, ConPrompt leverages example statements in its origin prompt as positive samples for contrastive learning. By further pre-training BERT on ToxiGen using ConPrompt, we present a pre-trained language model, ToxiGen-ConPrompt which shows better generalization ability in implicit hate speech detection compared to other pre-trained language models. In addition, we observe the desirable representation quality of ToxiGen-ConPrompt for tasks related to implicit hate speech.