对话安全的建立、破坏和修复：来自于人类对抗性攻击的鲁棒性

Aug, 2019

对话安全的建立、破坏和修复：来自于人类对抗性攻击的鲁棒性

Build it Break it Fix it for Dialogue Safety: Robustness from Adversarial Human Attack

Emily Dinan, Samuel Humeau, Bharath Chintagunta, Jason Weston

TL;DR本研究以交互式学习的方式开发出一种训练方案，提高自然语言处理在对话中检测攻击性语言的鲁棒性，并证明此方法比前一代系统稳健性更强。同时，该研究表明检测对话中的攻击性语言不能看作是单个句子的任务，必须考虑到对话背景。

Abstract

The detection of offensive language in the context of a dialogue has become an increasingly important application of natural language processing. The detection of trolls in public forums (Gal\'an-Garc\'ia et al., 2016), and the deployment of →

offensive language detection natural language processing chatbots human attacks dialogue context

发现论文，激发创造

在混合对抗非对抗的情况下从数据中学习：找到帮手，忽略骗子

本文研究如何在人工交互对话中进行鲁棒性强的学习，其中将人工对话分为有害（trolls）和有益（helpers）两类并引入了一种评估方法（SafetyMix）以此来测试学习算法的鲁棒性。研究结果表明在该环境中基于用户的方法比基于样例的方法更为有效。

Aug, 2022

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

不予理睬：对话生成模型在攻击性场景中的立场分析

通过对 Reddit 对话情景下的回应训练，研究对话模型响应中的攻击性语言，实验结果表明神经网络对话模型容易学习产生攻击性的回应，使用可控文本生成模型可以减少攻击性回复产生的数量。

Aug, 2021

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

提高任务导向对话系统的鲁棒性

本文针对任务导向的对话系统中的意图识别和参数标记存在的过度敏感问题，介绍了构建对抗性测试集和采用对抗性训练方法和数据增强来提高模型健壮性的解决方案。实验结果表明，这些技术的组合能显著提高系统的健壮性。

Nov, 2019

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

论攻击性语言分类器的鲁棒性

该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析，并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低 50% 以上，同时还能保持修改后文本的可读性和含义。

Mar, 2022

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

学会欣赏勤奋的喷子：在对话安全任务中考虑评价者效应

使用自动论文评分（AES）方法，通过多个用户对话进行隐藏类别分析（LCA）来推断正确标签，从而解决了聊天机器人在协同攻击中可能遇到的高成本和一致性限制。

Oct, 2023