通过可控反向生成构建高感应上下文以确保对话安全

EMNLPDec, 2022

通过可控反向生成构建高感应上下文以确保对话安全

Constructing Highly Inductive Contexts for Dialogue Safety through Controllable Reverse Generation

Zhexin Zhang, Jiale Cheng, Hao Sun, Jiawen Deng, Fei Mi...

TL;DR本文提出了一种名为反向生成的方法来构建对抗性环境，以检测大型预训练语言模型生成的有毒内容，并发现环境毒性和环境类别是引发安全问题的两个重要因素。该方法能够控制对抗性环境的类别、毒性和诱导性等参数。作者构建了一个新的数据集 BAD+，其中包含 12 个类别的超过 120K 个多样化和高诱导性的上下文，同时测试了三个流行的预训练模型，并发现 BAD+ 能够极大地暴露它们的安全问题，进一步说明 BAD+ 能够极大地增强生成的安全性和揭示关键的安全因素。

Abstract

large pretrained language models can easily produce toxic or biased content, which is prohibitive for practical use. In order to detect such toxic generations, existing methods rely on templates, real-world data extraction, crowdsourcing workers, or automatic generation to construct ad

large pretrained language models toxic generations context toxicity context category reverse generation

发现论文，激发创造

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

不予理睬：对话生成模型在攻击性场景中的立场分析

通过对 Reddit 对话情景下的回应训练，研究对话模型响应中的攻击性语言，实验结果表明神经网络对话模型容易学习产生攻击性的回应，使用可控文本生成模型可以减少攻击性回复产生的数量。

Aug, 2021

利用社会意识对比学习改善对话安全性

通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Feb, 2024

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

生成对抗性负面回复以提升响应排名与评估的鲁棒性

发展神经对话模型需要超越 “内容相似性”，本文提出用对抗性负面样本提高模型的实用性。实验表明，我们的方法在多个数据集上均表现优异。

Jun, 2021

通过毒化逆转实现自我解毒的语言模型

本文提出了一种轻量级方法，通过在预训练语言模型中添加负向指令来诱导模型生成无害内容，同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向，实现语言模型自我脱毒。实验结果表明，我们的方法无需微调或额外组件，可达到与最先进方法相当的性能。

Oct, 2023

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

上下文态度控制中的语言模型解毒

提议一种新的方法进行基于上下文的控制以降低语言模型生成的有害语言，将语境的立场纳入考虑，实现生成的立场控制前缀与毒性控制前缀的组合，经实验证明该方法可以有效地学习基于上下文的立场控制策略并保持低的自毒性。

Jan, 2023

实现稳健有害内容分类

本文提出了一种通过生成包含毒性单词的对抗样本，从而检验模型对毒性内容的识别性能，并探讨了使用 Contextual Denoising Autoencoder 提高模型鲁棒性的方法。实验表明，该方法在某些情况下可以将现有模型的检测准确率降低 50％以上。

Dec, 2019