BadLlama: 从 Llama 2-Chat 13B 中廉价移除安全微调
在研究中,我们通过秘密地微调公开权重,探索了语言模型安全训练的强壮性,成功降低了有害指令的拒绝率,证明了背离微调是切实可行和有效的。因此,我们主张在发布模型权重时,风险评估应将微调风险评估作为核心部分。
Oct, 2023
我们展示了当攻击者可以获取模型权重时,LLM 安全微调很容易被规避。我们评估了三种最先进的微调方法 - QLoRA,ReFT 和 Ortho,并展示了算法进步如何在 FLOPs 和优化能力的削减情况下实现恒定的越狱性能。我们在一分钟内从 Llama 3 8B 中剥离了安全微调,在 30 分钟内从 Llama 3 70B 中剥离,而且我们还勾勒了进一步减少这种情况的方法。
Jul, 2024
我们开发并发布了称为 Llama 2 的预训练和微调的大型语言模型集合,该集合的规模从 70 亿到 700 亿参数不等。称为 Llama 2-Chat 的我们的微调语言模型在大多数测试中优于开源聊天模型,并根据我们的人工评估显示对于有用性和安全性而言可能是闭源模型的合适替代品。我们提供了我们微调和安全性改进方法的详细说明,以便使社区能够在我们的工作基础上进行拓展,并为 Llama 2 的负责任发展做出贡献。
Jul, 2023
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调,就可能危及 LLMs 的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对 LLMs 进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的 LLMs 引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的 LLMs 的自定义微调的安全协议。
Oct, 2023
通过使用开源预训练的 Llama 2 7B-parameter 模型,这篇论文提出了一种检测在线性侵以及滥用语言的方法,其基于大型语言模型的能力,表现出良好的性能并适用于真实世界应用和其他潜在的文本分类问题。
Aug, 2023
通过对 Llama 2 的案例进行研究,评估了安全措施对已减轻的偏见的效果,并发现安全与有益性的权衡在某些人群中更加明显,可能对边缘化群体造成服务质量损害。
Mar, 2024
本文研究了如何减轻模型由于微调引起的安全问题,通过对几个聊天模型进行广泛实验,发现在微调和推理过程中使用的提示模板对于保持安全对齐至关重要,并提出了 “纯微调,安全测试”(PTST)原则,即在没有安全提示的情况下微调模型,但在测试时使用它。在 GSM8K,ChatDoctor 和 OpenOrca 上进行的微调实验表明,PTST 显著减少了不安全行为的发生,甚至在某些情况下几乎消除了它们。
Feb, 2024
训练大型语言模型遵循指示能够使其在各种任务上表现更好,但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外,我们证明了在训练 LLaMA 等模型进行微调时,仅增加 3%的安全示例(几百个演示)可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而,我们发现一种夸大的安全性行为,即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。
Sep, 2023
通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架,并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫,我们综合了不同的研究方向,以预防有害微调攻击。
Feb, 2024
探讨大型语言模型在恶意服务 Mallas 的滥用方面的有效性和漏洞,以及针对已识别漏洞生成代码和解释文本的微调方法。研究旨在揭示 Mallas 的操作策略和攻击技术,从而为开发更安全可信赖的人工智能应用程序提供指导。强调进一步研究、增强保护措施和伦理准则以应对大型语言模型恶意应用的风险。
Jun, 2024