构建鲁棒的毒性预测模型

ACLApr, 2024

Towards Building a Robust Toxicity Predictor

Dmitriy Bespalov, Sourav Bhabesh, Yi Xiang, Liutong Zhou, Yanjun Qi

TL;DR最近的自然语言处理文献很少关注毒性语言预测器的稳健性，而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap，通过引入小的单词级扰动来欺骗最先进的文本分类器，将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略，实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计，ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明，SOTA 的毒性文本分类器确实容易受到这种攻击的影响，在多标签情况下攻击成功率超过 98％。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性，即使面对未知的攻击。

Abstract

Recent nlp literature pays little attention to the robustness of toxicity language predictors, while these systems are most likely to be used in adversarial contexts. This paper presents a novel adversarial attack

nlp toxicity language predictors adversarial attack toxictrap text classifiers

发现论文，激发创造

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

实现稳健有害内容分类

本文提出了一种通过生成包含毒性单词的对抗样本，从而检验模型对毒性内容的识别性能，并探讨了使用 Contextual Denoising Autoencoder 提高模型鲁棒性的方法。实验表明，该方法在某些情况下可以将现有模型的检测准确率降低 50％以上。

Dec, 2019

高效触发词插入

本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Nov, 2023

扩展范围：将英语对抗攻击应用于中文

本研究通过适当的文本分割和语言约束，将英语自然语言处理领域最先进的对抗性攻击算法适应于中文，并展示了这些攻击方法可以生成高质量的对抗性样本，从而提高了中文自然语言处理领域的对抗鲁棒性。

Jun, 2023

通过语音文本对齐提升多语言语音有害性检测

利用跨模态学习将文本的语义嵌入集成到多标签语音毒性分类器中，该分类器仅在训练期间需要文本信息，推理时仅需要音频信息，并通过大规模数据集在真实环境下验证了此框架的有效性，同时通过消融研究证明了通用语义文本嵌入对于毒性分类目的的丰富性和与语音的一致性，通过规模化跨多种语言进行实验，展示了在五种语言和不同毒性类别中语音毒性分类的改进。

Jun, 2024

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

Goodtriever: 检索增强模型的自适应毒性缓解

通过引入 Goodtriever 方法，在考虑到语言的演变性的基础上，提出了一个全面的毒性缓解视角，并在推理过程中实现 43% 的相对延迟降低，更具计算效率。该研究呼吁增加对适应性缓解技术的关注，这能更好地反映模型在实际环境中面对的数据漂移问题。

Oct, 2023

使用大型预训练神经模型进行文本去毒化

本文提出了两种新颖的无监督方法来消除文本中的有害信息，第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法，第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词，并进行了大规模比较研究，证明这两种方法有效且是新的最佳解决方案。

Sep, 2021

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Mar, 2022

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021