ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

ACLMar, 2022

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection

Thomas Hartvigsen, Saadia Gabriel, Hamid Palangi, Maarten Sap, Dipankar Ray...

TL;DR本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Abstract

toxic language detection systems often falsely flag text that contains minority group mentions as toxic, as those groups are often the targets of online hate. Such over-reliance on spurious correlations also causes systems to struggle with detecting implicitly toxic language. To help m

toxigen toxic language detection machine-generated dataset adversarial classifier human evaluation

发现论文，激发创造

检测有毒语料库中的意外社会偏见

本研究介绍了一个新的数据集 ToxicBias，这是从 Kaggle 竞赛中现有的数据集 “Jigsaw Unintended Bias in Toxicity Classification” 中精心策划的，旨在检测社交偏见及其类别和目标群体。我们使用我们策划的数据集对基于转换器的模型进行训练，并报告了偏见识别、目标生成和偏见影响的基线性能。研究还详细讨论了模型偏见及其缓解。

Oct, 2022

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

IndoToxic2024：一份丰富人口统计数据集，用于印度尼西亚语的仇恨言论和毒性类型

印尼互联网仇恨言论和毒性分类数据集的全面介绍以及对利用 BERT 模型和 gpt-3.5-turbo 进行情感分析的结果和注意事项。

Jun, 2024

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

通过人为扰动在线评估内容审核机器学习模型

本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Mar, 2023

大型语言模型伦理调优的韩语毒性指令数据集的自动构建

通过建立自动生成的有害指令数据库来改进大型语言模型的训练方式，并提高模型对有害输入的伦理意识和反应，推动自然语言处理应用中更安全、更负责任的交互。

Nov, 2023

ToViLaG：视觉语言生成模型也是一个恶棍

该研究探讨了大规模视觉 - 语言生成模型（VLGMs）在生成有害内容方面的倾向性和易感性，并建立了 ToViLaG 数据集以评估其毒性。此外，提出了一种适用于视觉 - 语言生成的新型毒性度量标准 WInToRe，并开发了一种基于瓶颈的毒素去除方法，为该领域研究提供了有希望的初步解决方案。

Dec, 2023

从最差的情况学习：动态生成数据集以提高在线仇恨检测能力

本研究提出了一种利用人员与模型共同协作的动态数据集生成和训练模型的方法，生成了大约 40,000 项新数据并标注为 15,000 项令人挑战的扰动。通过这种方法训练出的模型性能大幅提升，具有更高的鲁棒性和更好的性能。

Dec, 2020

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023