学会不学习：聊天机器人生成安全的探索

Apr, 2023

学会不学习：聊天机器人生成安全的探索

Learn What NOT to Learn: Towards Generative Safety in Chatbots

Leila Khalatbari, Yejin Bang, Dan Su, Willy Chung, Saeed Ghadimi...

TL;DR本文提出了一种名为 LOT 的新框架，该框架采用对比损失来增强归纳推理模型对输入上下文的泛化能力，使生成的结果避免了不安全的信息，并在保持对话流畅性的情况下，有效地减少了毒性，同时保留了内容的魅力和流畅度。经实验证明，与基线模型相比，该方法能将毒性降低四倍以上，同时提高内容的魅力和流畅度。

Abstract

conversational models that are generative and open-domain are particularly susceptible to generating unsafe content since they are trained on web-based social data. Prior approaches to mitigating this issue have

conversational models unsafe content contrastive loss toxicity reduction positive and negative signals

发现论文，激发创造

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

利用社会意识对比学习改善对话安全性

通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Feb, 2024

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

通过可控反向生成构建高感应上下文以确保对话安全

本文提出了一种名为反向生成的方法来构建对抗性环境，以检测大型预训练语言模型生成的有毒内容，并发现环境毒性和环境类别是引发安全问题的两个重要因素。该方法能够控制对抗性环境的类别、毒性和诱导性等参数。作者构建了一个新的数据集 BAD+，其中包含 12 个类别的超过 120K 个多样化和高诱导性的上下文，同时测试了三个流行的预训练模型，并发现 BAD+ 能够极大地暴露它们的安全问题，进一步说明 BAD+ 能够极大地增强生成的安全性和揭示关键的安全因素。

Dec, 2022

在混合对抗非对抗的情况下从数据中学习：找到帮手，忽略骗子

本文研究如何在人工交互对话中进行鲁棒性强的学习，其中将人工对话分为有害（trolls）和有益（helpers）两类并引入了一种评估方法（SafetyMix）以此来测试学习算法的鲁棒性。研究结果表明在该环境中基于用户的方法比基于样例的方法更为有效。

Aug, 2022

大型语言模型使有害行为无法学习

通过引入安全向量 `security vectors` 并在微调过程中激活，使得大型语言模型 `LLMs` 产生一致性响应，从而防止其学习有害行为。在推断过程中，我们可以关闭安全向量以恢复正常行为。实验结果表明，使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本，同时保留学习其他有用信息的能力。

Nov, 2023

理解开放域聊天机器人中的多轮有害行为

设计了一种名为 oxicbot 的新攻击方式，通过对话序列来触发多轮对话中聊天机器人生成有毒回复，使得聊天机器人模型可以被触发生成有毒回复，进而绕过两种防御方法，需要进一步研究解决动态交互环境下聊天机器人的毒性问题。

Jul, 2023

从挫折中获益：通过错误分析对齐大型语言模型

通过暴露大型语言模型存在的缺陷输出并进行彻底评估，该研究提出了一种根据错误分析的新型对齐策略，以完全理解其内部原因，并将有害回应转化为模型对齐的指令调整语料库，从而不仅使 LLMs 不再产生有缺陷的回应，还可训练其自我批评，并利用其判别有毒内容的内在能力，实验结果表明，该方法在安全指令跟踪方面优于传统对齐技术，同时保持卓越的效率。

Oct, 2023

CRINGE 丢失：学习不需要建模的语言

使用 CRINGE 方法进行语言模型训练来减轻使用金标准和正例数据训练模型的问题，实验表明该方法对于安全生成、避免矛盾和开放域对话等任务均有效。

Nov, 2022

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023