通过可控的大型语言模型实现安全性和帮助性平衡的响应

Apr, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models

Yi-Lin Tuan, Xilun Chen, Eric Michael Smith, Louis Martin, Soumya Batra...

TL;DR我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Abstract

As large language models (LLMs) become easily accessible nowadays, the trade-off between safety and helpfulness can significantly impact u

large language models safety helpfulness controllability user experience

发现论文，激发创造

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

安全调校型 LLaMAs：提升遵循指令大型语言模型安全性的经验教训

训练大型语言模型遵循指示能够使其在各种任务上表现更好，但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外，我们证明了在训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例（几百个演示）可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而，我们发现一种夸大的安全性行为，即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。

Sep, 2023

个性化语言模型中的安全性 - 效用权衡探索

大型语言模型（LLMs）在日常应用中变得越来越普遍，因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题，也就是当 LLMs 根据用户的身份进行个性化设置时，它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现，不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异，这取决于用户的身份。最后，我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。

Jun, 2024

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024

大型语言模型如何在诚实和有帮助性之间进行平衡？

使用心理模型和实验分析了大型语言模型的处理方式，发现强化学习通过人类反馈可提高诚实性和帮助性，而思维链提示则使语言模型偏向帮助性而牺牲了诚实性。最终，GPT-4 Turbo 展现出类似于人类的回应模式，包括对话框架和听者决策背景的敏感性，揭示了语言模型内化的对话价值观，并暗示即使是这些抽象价值也可在无需提示的情况下进行引导。

Feb, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

大型语言模型使有害行为无法学习

通过引入安全向量 `security vectors` 并在微调过程中激活，使得大型语言模型 `LLMs` 产生一致性响应，从而防止其学习有害行为。在推断过程中，我们可以关闭安全向量以恢复正常行为。实验结果表明，使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本，同时保留学习其他有用信息的能力。

Nov, 2023

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024