构建仇恨言论检测数据集的挑战

Sep, 2023

On the Challenges of Building Datasets for Hate Speech Detection

Vitthal Bhandari

TL;DR通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Abstract

Detection of hate speech has been formulated as a standalone application of nlp and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, cho

hate speech nlp detection algorithm data creation sexual minorities

发现论文，激发创造

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

面向群体的 NLP 仇恨言论检测方法

本研究提出了一种针对在线仇恨言论检测的 NLP 组特定方法，结合历史和语言知识并通过种族和伦理学等角度对模型进行评估，实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象，同时该方法用于检测反犹太主义仇恨言论，成果将现有的反犹太主义研究和语言知识图谱相结合。

Apr, 2023

建立仇恨言论检测数据集的信息检索方法

通过信息检索领域的标准方法，采用池化和主动学习技术及任务分解和注释说明技巧，构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集，并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。

Jun, 2021

基于机器学习的自动化仇恨言论检测中的挑战综述

探讨了自动检测恶意言论的各种挑战，并提供了一个分层组织的问题列表。在数据级别、模型级别和人类级别分别区分了挑战，并对每个层次进行了详尽的分析，以帮助研究人员更有效地设计其在恶意言论检测领域中的解决方案。

Sep, 2022

深度学习用于仇恨言论检测：一项比较研究

本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较，并以常用数据集为媒介，特别关注实际性能和实践指导，以提供指导，并确定未来的研究方向。

Feb, 2022

一个用于在线仇恨言论干预学习的基准数据集

本文提出了一项生成式仇恨言论干预的新任务，并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集，该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应，此外，本文还分析了这些数据集以了解常见的干预策略，并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。

Sep, 2019

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

MetaHate: 一个用于整合仇恨言论检测努力的数据集

恶意言论是一种广泛而有害的在线话语形式，通常通过一系列诋毁性的言辞来表现，如令人厌恶的推文和诽谤帖子。本研究旨在解决这一现象，提出了一个全面的元数据集，并对现有的收集进行了详细的研究，以推动更强大和适应性更强的模型的训练，以有效对抗数字领域中恶意言论的动态和复杂性。

Jan, 2024

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018