针对政策的仇恨言论测试

Jul, 2023

Testing Hateful Speeches against Policies

Jiangrui Zheng, Xueqing Liu, Girish Budhrani, Wei Yang, Ravishka Rathnasuriya

TL;DR本研究通过对 AI 系统与基于规则需求的深度神经网络的行为进行案例研究，对内容审核软件进行测试，发现当前具有高失败率的现有模型，进一步提出了一种自动化方法通过精调 OpenAI 的大型语言模型来增强 HateModerate 数据集。

Abstract

In the recent years, many software systems have adopted AI techniques, especially deep learning techniques. Due to their black-box nature, AI-based systems brought challenges to traceability, because AI system behaviors are based on models and data, whereas the requirements or policies are rules in the form of natural or programming language. To the best of

ai-based systems deep neural network rule-based requirements content moderation software hatemoderate dataset

发现论文，激发创造

使用自然语言处理的仇恨言论自动检测的系统综述

本文对社交媒体上仇恨言论检测和追踪的问题进行了系统综述，重点关注自然语言处理和深度学习技术，概述了该领域的文献、方法和限制，并提出未来研究方向。

May, 2021

基于机器学习的自动化仇恨言论检测中的挑战综述

探讨了自动检测恶意言论的各种挑战，并提供了一个分层组织的问题列表。在数据级别、模型级别和人类级别分别区分了挑战，并对每个层次进行了详尽的分析，以帮助研究人员更有效地设计其在恶意言论检测领域中的解决方案。

Sep, 2022

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

一个用于在线仇恨言论干预学习的基准数据集

本文提出了一项生成式仇恨言论干预的新任务，并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集，该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应，此外，本文还分析了这些数据集以了解常见的干预策略，并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。

Sep, 2019

深度学习用于仇恨言论检测：一项比较研究

本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较，并以常用数据集为媒介，特别关注实际性能和实践指导，以提供指导，并确定未来的研究方向。

Feb, 2022

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017

利用深度生成模型实现大规模仇恨言论检测

该研究探讨使用深度学习对 hate speech 进行自动检测，基于生成的 1 百万条数据集进行模型训练，在公共 hate speech 数据集上获得了显著的性能提升，提高了对多样的 hate speech 序列的高灵敏检测能力，为实现完全自动化的解决方案铺平了道路。

May, 2020

数据饮食下的性别主义检测

我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性，应用于性别歧视检测案例中，我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能，并发现大部分实例可以删除而不会显著降低性能，但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容，反而进一步加剧了已经普遍存在的类别不平衡问题，导致最坏情况下恶意类别完全消失。

Jun, 2024