不予理睬：对话生成模型在攻击性场景中的立场分析

EMNLPAug, 2021

不予理睬：对话生成模型在攻击性场景中的立场分析

Just Say No: Analyzing the Stance of Neural Dialogue Generation in Offensive Contexts

Ashutosh Baheti, Maarten Sap, Alan Ritter, Mark Riedl

TL;DR通过对 Reddit 对话情景下的回应训练，研究对话模型响应中的攻击性语言，实验结果表明神经网络对话模型容易学习产生攻击性的回应，使用可控文本生成模型可以减少攻击性回复产生的数量。

Abstract

dialogue models trained on human conversations inadvertently learn to generate toxic responses. In addition to producing explicitly offensive utterances, these models can also implicitly insult a group or individual by aligning themselves with an offensive statement. To better understa

dialogue models toxic language offensive comments controllable text generation neural networks

发现论文，激发创造

上下文态度控制中的语言模型解毒

提议一种新的方法进行基于上下文的控制以降低语言模型生成的有害语言，将语境的立场纳入考虑，实现生成的立场控制前缀与毒性控制前缀的组合，经实验证明该方法可以有效地学习基于上下文的立场控制策略并保持低的自毒性。

Jan, 2023

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

对话安全的建立、破坏和修复：来自于人类对抗性攻击的鲁棒性

本研究以交互式学习的方式开发出一种训练方案，提高自然语言处理在对话中检测攻击性语言的鲁棒性，并证明此方法比前一代系统稳健性更强。同时，该研究表明检测对话中的攻击性语言不能看作是单个句子的任务，必须考虑到对话背景。

Aug, 2019

通过可控反向生成构建高感应上下文以确保对话安全

本文提出了一种名为反向生成的方法来构建对抗性环境，以检测大型预训练语言模型生成的有毒内容，并发现环境毒性和环境类别是引发安全问题的两个重要因素。该方法能够控制对抗性环境的类别、毒性和诱导性等参数。作者构建了一个新的数据集 BAD+，其中包含 12 个类别的超过 120K 个多样化和高诱导性的上下文，同时测试了三个流行的预训练模型，并发现 BAD+ 能够极大地暴露它们的安全问题，进一步说明 BAD+ 能够极大地增强生成的安全性和揭示关键的安全因素。

Dec, 2022

ChatGPT：在社交媒体中检测和区分令人讨厌、攻击性和有毒评论的承诺

研究使用 ChatGPT 与 MTurker 注释进行 HOT 分类，结果显示 ChatGPT 的准确率约为 80％，且分类方式比人工注释更一致，但其对 “毒性” 的分类大于对 “仇恨” 和 “冒犯” 的分类。研究结果对于使用生成式 AI 模型监管社交媒体上的大量用户生成内容具有重要意义。

Apr, 2023

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

APPDIA：基于 Transformer 的语篇感知风格转换模型，用于攻击性社交媒体对话

本文描述了通过释义链接迁移 Reddit 上的冒犯性文本风格的第一个语篇感知风格迁移模型，该模型是通过依靠专家社会语言学家对其进行注释的第一个冒犯性 Reddit 评论和其无冒犯对应文本的大型数据集训练得出的。经过基于人类评估和自动评估的实验验证，该模型是实验结果中最优秀的一种。

Sep, 2022

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023