Badllama 3：将安全微调从 Llama 3 中移除的方法（仅需几分钟）

Jul, 2024

Badllama 3：将安全微调从 Llama 3 中移除的方法（仅需几分钟）

Badllama 3: removing safety finetuning from Llama 3 in minutes

Dmitrii Volkov

TL;DR我们展示了当攻击者可以获取模型权重时，LLM 安全微调很容易被规避。我们评估了三种最先进的微调方法 - QLoRA，ReFT 和 Ortho，并展示了算法进步如何在 FLOPs 和优化能力的削减情况下实现恒定的越狱性能。我们在一分钟内从 Llama 3 8B 中剥离了安全微调，在 30 分钟内从 Llama 3 70B 中剥离，而且我们还勾勒了进一步减少这种情况的方法。

Abstract

We show that extensive llm safety fine-tuning is easily subverted when an attacker has access to model weights. We evaluate three state-of

llm safety fine-tuning attacker model weights jailbreaking performance algorithmic advances

发现论文，激发创造

LoRA 高效地撤销了 Llama 2-Chat 70B 中的安全训练

在研究中，我们通过秘密地微调公开权重，探索了语言模型安全训练的强壮性，成功降低了有害指令的拒绝率，证明了背离微调是切实可行和有效的。因此，我们主张在发布模型权重时，风险评估应将微调风险评估作为核心部分。

Oct, 2023

BadLlama: 从 Llama 2-Chat 13B 中廉价移除安全微调

Llama 2-Chat 的模型权重的公开释放可能导致忽略其安全调整，从而使其能力被恶意利用，并且为了预防未来模型造成的伤害，AI 开发人员应该解决模型权重公开释放带来的威胁。

Oct, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意！

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调，就可能危及 LLMs 的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对 LLMs 进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的 LLMs 引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的 LLMs 的自定义微调的安全协议。

Oct, 2023

利用后门增强对齐来缓解微调越狱攻击

通过使用少量的安全示例，我们提出了一种后门增强安全对齐方法，以有效防御偏好微调调优攻击，同时不损害微调任务的性能。

Feb, 2024

QLoRA: 基于量化的 LLMs 高效微调

QLoRA 是一种高效的微调方法，它通过 4 位量化的预训练语言模型将梯度反向传递到低秩适配器中，以降低内存使用，同时保持全 16 位微调任务性能。它能够优化模型性能，并且在更小的内存占用下使用小的高质量数据集进行微调，甚至达到先前最先进性能等级的状态。

May, 2023

ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成

我们提出了一种内存高效的大型语言模型微调算法 (ModuLoRA)，支持在只有一个 48GB 的 GPU 上以 3 位或 4 位精度对具有 65B 参数的语言模型进行微调。通过将任何用户指定的权重量化器与低秩适配器 (LoRAs) 结合使用，我们的方法通过简单的量化无关后向传递来适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中，ModuLoRA 在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能，并且在使用比现有方法更少的内存的同时，我们还超过了流行的摘要任务的最新 ROUGE 分数。我们将 ModuLoRA 与一系列低精度模型一起发布，其中包括第一个 3 位指令跟随型 Alpaca LLMs 系列，作为 LLMTOOLS 的一部分，LLMTOOLS 是一个用户友好的用于在消费级 GPU 上进行量化、运行和微调 LLMs 的库。

Sep, 2023

通过微调在 GPT-4 中移除 RLHF 保护

精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Nov, 2023

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

通过简单自适应攻击解禁领先的安全对齐 LLMs

展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性，并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法，同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性，并介绍了在木马检测领域中使用随机搜索的一种算法。

Apr, 2024