隐蔽恶意微调：保护 LLM 适应性中的挑战

Jun, 2024

隐蔽恶意微调：保护 LLM 适应性中的挑战

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

Danny Halawi, Alexander Wei, Eric Wallace, Tony T. Wang, Nika Haghtalab...

TL;DR使用黑盒微调接口可以根据用户需求对最新的语言模型进行适应性调整，但此类访问可能使恶意行为者危害模型安全。为了证明防御微调接口的挑战，我们引入了隐蔽恶意微调方法，通过微调方法来危害模型安全并且躲避检测。我们的方法构建了一个恶意数据集，其中每个数据点看起来都很无害，但通过在此数据集上微调，模型学会对编码的有害请求作出有害响应。应用于 GPT-4 上，我们的方法产生了一个微调模型，99% 的时间执行有害指令且能够躲避数据集检查、安全评估和输入 / 输出分类器等防御机制。我们的发现质疑了黑盒微调访问是否能够抵御复杂对手。

Abstract

black-box finetuning is an emerging interface for adapting state-of-the-art language models to user needs. However, such access may also let malicious actors undermine model safety. To demonstrate the challenge o

black-box finetuning model safety malicious actors dataset inspection sophisticated adversaries

发现论文，激发创造

模仿用户数据：关于减轻封闭式大型语言模型的微调风险

在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能，我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险，并提出了一种新的缓解策略，该策略在维持相似任务性能的同时，更有效地重新建立安全对齐。

Jun, 2024

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024

CombLM：通过小型微调模型调整黑盒语言模型

一种适用于新任务和域的轻量级语言模型细调方法，采用小型白盒模型细调结合概率级别的大型黑盒模型，可显着提高机器翻译等任务的性能。

May, 2023

利用后门增强对齐来缓解微调越狱攻击

通过使用少量的安全示例，我们提出了一种后门增强安全对齐方法，以有效防御偏好微调调优攻击，同时不损害微调任务的性能。

Feb, 2024

语言模型的敌对微调：一种用于生成和检测问题内容的迭代优化方法

使用对抗微调的新型双阶段优化技术解决大型语言模型中意外有害内容生成的挑战，并通过分类准确性评估方法展示了优化过程中，判断模型在具有挑战性的数据集上的性能提升。

Aug, 2023

LoFT：用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调

本研究提出了局部微调（LoFT）方法，通过在词汇 - 语义邻近的有害查询中微调代理模型，减小代理模型与目标模型之间的差异，从而提高攻击的成功率。实验证明，局部微调代理模型能够提高攻击的传递性和攻击成功率。

Oct, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意！

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调，就可能危及 LLMs 的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对 LLMs 进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的 LLMs 引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的 LLMs 的自定义微调的安全协议。

Oct, 2023

Janus 界面：大型语言模型中的微调如何放大隐私风险

利用微小的个人可识别信息数据集完成 GPT-3.5 的微调，可以导致大量隐藏的个人信息被揭示。

Oct, 2023

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024