几乎零成本的安全微调:视觉大型语言模型的基准
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为 “安全盆地” 的普遍现象,该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE 安全度量标准,用于通过探测安全景观来衡量 LLMs 微调的安全性,并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。
May, 2024
研究通过图像理解扩展大型语言模型(LLMs)已经产生了高性能的视觉语言模型(VLMs)。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注,但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响,每种 VLM 都使用了不同的建模方法。通过将每个 VLM 与其相应的 LLM 骨干进行比较,我们发现每个 VLM 更容易受到越狱的影响。我们认为这是从视觉指导调整中产生的对 LLM 安全规则的遗忘效应,这是一个不可取的结果。因此,我们提供了基于评估策略的未来工作建议,旨在凸显 VLM 的弱点,并在视觉指导调整期间考虑安全措施。
May, 2024
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调,就可能危及 LLMs 的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对 LLMs 进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的 LLMs 引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的 LLMs 的自定义微调的安全协议。
Oct, 2023
我们提出了一种数据筛选框架,以增强大语言模型的安全对齐性,通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中,我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练,观察到在安全对齐方面对有害查询的响应性明显改善,例如当使用含有 5% 有害实例的众包数据集进行预训练时,添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性,并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。
May, 2024
通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点,我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。
Apr, 2024
在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能,我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险,并提出了一种新的缓解策略,该策略在维持相似任务性能的同时,更有效地重新建立安全对齐。
Jun, 2024
通过引入安全向量 `security vectors` 并在微调过程中激活,使得大型语言模型 `LLMs` 产生一致性响应,从而防止其学习有害行为。在推断过程中,我们可以关闭安全向量以恢复正常行为。实验结果表明,使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本,同时保留学习其他有用信息的能力。
Nov, 2023
训练大型语言模型遵循指示能够使其在各种任务上表现更好,但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外,我们证明了在训练 LLaMA 等模型进行微调时,仅增加 3%的安全示例(几百个演示)可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而,我们发现一种夸大的安全性行为,即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。
Sep, 2023
本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术,提出了一个潜在的越狱 Prompts 数据集,旨在全面研究大型语言模型的文本安全性和输出鲁棒性,结果表明当前的 LLMs 不仅偏爱某些指令动词,而且在显式正常指令中存在不同的越狱率,这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。
Jul, 2023