面向群体的 NLP 仇恨言论检测方法

Apr, 2023

面向群体的 NLP 仇恨言论检测方法

A Group-Specific Approach to NLP for Hate Speech Detection

Karina Halevy

TL;DR本研究提出了一种针对在线仇恨言论检测的 NLP 组特定方法，结合历史和语言知识并通过种族和伦理学等角度对模型进行评估，实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象，同时该方法用于检测反犹太主义仇恨言论，成果将现有的反犹太主义研究和语言知识图谱相结合。

Abstract

automatic hate speech detection is an important yet complex task, requiring knowledge of common sense, stereotypes of protected groups, and histories of discrimination, each of which may constantly evolve. In thi

automatic hate speech detection nlp protected groups intersectionality antisemitism detection

发现论文，激发创造

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

使用自然语言处理的仇恨言论自动检测的系统综述

本文对社交媒体上仇恨言论检测和追踪的问题进行了系统综述，重点关注自然语言处理和深度学习技术，概述了该领域的文献、方法和限制，并提出未来研究方向。

May, 2021

一个用于在线仇恨言论干预学习的基准数据集

本文提出了一项生成式仇恨言论干预的新任务，并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集，该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应，此外，本文还分析了这些数据集以了解常见的干预策略，并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。

Sep, 2019

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

走向可推广的仇恨言论检测：障碍与解决方案综述

本综述旨在总结现有关于自然语言处理中针对在线仇恨言论检测模型泛化能力的研究结果、对现有模型泛化难题的原因进行解释、总结已有解决方案，并提出未来改善检测模型泛化能力的研究方向。

Feb, 2021

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018