HateCOT: 通过大型语言模型增强解释性的通用冒犯性言论检测数据集

Mar, 2024

HateCOT: 通过大型语言模型增强解释性的通用冒犯性言论检测数据集

HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models

Huy Nghiem, Hal Daumé III

TL;DR社交媒体的普及性使得需要可靠高效地检测有害内容以限制其负面影响。本文介绍 HateCOT 数据集，该数据集包含 52000 个样本，来自多个不同来源，并使用 GPT-3.5-Turbo 和人工筛选生成解释。我们展示在 HateCOT 上对于检测有害内容的预训练模型，在三个基准数据集上，在零样本和少样本情况下，显著提升了开源语言模型的性能，尽管存在领域和任务的差异。我们进一步发现 HateCOT 使得在低资源情况下进行有效的 K-shot 微调成为可能。

Abstract

The ubiquitousness of social media has led to the need for reliable and efficient detection of offensive content to limit harmful effects.

social media offensive content detection datasets language models

发现论文，激发创造

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

THOS：一个面向有针对性的仇恨和攻击性言论的基准数据集

社交媒体上检测有害内容的困难在于看似简单的是 / 否分类隐藏了大量的复杂性。本文介绍了 THOS 数据集，该数据集包含了 8.3k 个带有目标细粒度标注的推文，展示了使用大型语言模型训练分类器在该层级进行分类的可行性。

Nov, 2023

从最差的情况学习：动态生成数据集以提高在线仇恨检测能力

本研究提出了一种利用人员与模型共同协作的动态数据集生成和训练模型的方法，生成了大约 40,000 项新数据并标注为 15,000 项令人挑战的扰动。通过这种方法训练出的模型性能大幅提升，具有更高的鲁棒性和更好的性能。

Dec, 2020

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

用生成的大量仇恨言论微调仇恨检测器

运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性，并发现使用相关标记的仇恨言论序列优于使用域外，有时也优于域内的人工标注示例。

Sep, 2021

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

FIRE 2020 上 HASOC 赛道概述：印欧语系中的仇恨言论与攻击内容识别

本文介绍了在社交媒体中迅速增长的仇恨言论现象以及如何使用多语言算法进行检测，其中包括 Hindi、德语和英语等三种语言，使用的数据集是通过机器学习系统对 Twitter 进行分类得到的，并使用了变压器结构 BERT 进行实验。

Aug, 2021

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022