对抗难以察觉的有毒触发器的强健对话代理

May, 2022

对抗难以察觉的有毒触发器的强健对话代理

Robust Conversational Agents against Imperceptible Toxicity Triggers

Ninareh Mehrabi, Ahmad Beirami, Fred Morstatter, Aram Galstyan

TL;DR本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

Abstract

Warning: this paper contains content that maybe offensive or upsetting. Recent research in natural language processing (NLP) has advanced the development of various toxicity detection models with the intention of

natural language processing toxicity detection models adversarial attacks conversational agents defense mechanism

发现论文，激发创造

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

构建鲁棒的毒性预测模型

最近的自然语言处理文献很少关注毒性语言预测器的稳健性，而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap，通过引入小的单词级扰动来欺骗最先进的文本分类器，将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略，实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计，ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明，SOTA 的毒性文本分类器确实容易受到这种攻击的影响，在多标签情况下攻击成功率超过 98％。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性，即使面对未知的攻击。

Apr, 2024

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

实现稳健有害内容分类

本文提出了一种通过生成包含毒性单词的对抗样本，从而检验模型对毒性内容的识别性能，并探讨了使用 Contextual Denoising Autoencoder 提高模型鲁棒性的方法。实验表明，该方法在某些情况下可以将现有模型的检测准确率降低 50％以上。

Dec, 2019

ToxicChat: 揭示现实世界用户与 AI 对话中的隐含挑战

本研究介绍了 ToxicChat，这是一个基于开源聊天机器人的新型基准，用于揭示现实世界中用户与 AI 交互所面临的挑战，并对现有毒性数据集训练的模型进行了系统评估，揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健康环境提供了宝贵的资源。

Oct, 2023

对话安全的建立、破坏和修复：来自于人类对抗性攻击的鲁棒性

本研究以交互式学习的方式开发出一种训练方案，提高自然语言处理在对话中检测攻击性语言的鲁棒性，并证明此方法比前一代系统稳健性更强。同时，该研究表明检测对话中的攻击性语言不能看作是单个句子的任务，必须考虑到对话背景。

Aug, 2019

利用反事实生成减轻文本毒性

通过使用反事实生成方法以及可解释性人工智能（XAI）领域的方法来目标化和缓解文本毒性，我们提出了一种文本解毒方法，该方法能够在去除有害含义的同时保留初始非毒性含义，并且对三个数据集进行比较实证研究和评估结果表明，最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性，并更好地保留了初始文本的含义。此外，我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题，这项工作是首次将反事实生成与文本解毒结合起来，为 XAI 方法的更实际应用铺平了道路。

May, 2024

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

人类如何感知对抗文本？关于基于单词的对抗攻击的有效性和自然性的现实检验

对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题，本研究通过对 378 个人的实验调查，发现现有文本攻击在需要人类参与的实际场景中是不切实际的，从而得出应该把人类的感知度作为文本攻击的首要成功标准。

May, 2023