模仿用户数据：关于减轻封闭式大型语言模型的微调风险

Jun, 2024

模仿用户数据：关于减轻封闭式大型语言模型的微调风险

Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models

Francisco Eiras, Aleksandar Petrov, Phillip H.S. Torr, M. Pawan Kumar, Adel Bibi

TL;DR在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能，我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险，并提出了一种新的缓解策略，该策略在维持相似任务性能的同时，更有效地重新建立安全对齐。

Abstract

fine-tuning large language models on small, high-quality datasets can enhance their performance on specific downstream tasks. Recent research shows that →

fine-tuning language models safety risks mitigation strategy task performance

发现论文，激发创造

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

您的 “安全” 数据中有什么？：识别破坏安全性的良性数据

通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点，我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。

Apr, 2024

微调对齐语言模型牺牲了安全性，即使用户并无此意！

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调，就可能危及 LLMs 的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对 LLMs 进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的 LLMs 引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的 LLMs 的自定义微调的安全协议。

Oct, 2023

隐蔽恶意微调：保护 LLM 适应性中的挑战

使用黑盒微调接口可以根据用户需求对最新的语言模型进行适应性调整，但此类访问可能使恶意行为者危害模型安全。为了证明防御微调接口的挑战，我们引入了隐蔽恶意微调方法，通过微调方法来危害模型安全并且躲避检测。我们的方法构建了一个恶意数据集，其中每个数据点看起来都很无害，但通过在此数据集上微调，模型学会对编码的有害请求作出有害响应。应用于 GPT-4 上，我们的方法产生了一个微调模型，99% 的时间执行有害指令且能够躲避数据集检查、安全评估和输入 / 输出分类器等防御机制。我们的发现质疑了黑盒微调访问是否能够抵御复杂对手。

Jun, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有 5% 有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

May, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

安全调校型 LLaMAs：提升遵循指令大型语言模型安全性的经验教训

训练大型语言模型遵循指示能够使其在各种任务上表现更好，但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外，我们证明了在训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例（几百个演示）可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而，我们发现一种夸大的安全性行为，即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。

Sep, 2023

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

利用后门增强对齐来缓解微调越狱攻击

通过使用少量的安全示例，我们提出了一种后门增强安全对齐方法，以有效防御偏好微调调优攻击，同时不损害微调任务的性能。

Feb, 2024

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024