对齐大语言模型的安全层：LLM安全的关键

Aug, 2024

对齐大语言模型的安全层：LLM安全的关键

Safety Layers of Aligned Large Language Models: The Key to LLM Security

Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li

TL;DR本研究针对对齐大语言模型在安全性方面的挑战，阐明了内部参数在安全维护中的作用，揭示了识别恶意查询的关键“安全层”。提出了一种新颖的微调方法——安全部分参数微调(SPPFT)，有效防止了安全性下降，同时节省计算资源，保持模型性能。

Abstract

Aligned LLMs are highly secure, capable of recognizing and refusing to answer malicious questions. However, the role of internal parameters in maintaining this security is not well understood, further these models are vulnerable to security degradation when fine-tuned with non-maliciou

发现论文，激发创造

微调对齐语言模型牺牲了安全性，即使用户并无此意!

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调，就可能危及LLMs的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对LLMs进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的LLMs引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的LLMs的自定义微调的安全协议。

Oct, 2023

伪对齐：LLMs真的对齐良好吗？

该研究探讨了大型语言模型的安全性问题，并指出其在多项选择问题和开放性问题之间性能存在显著差异，可能是由于不完全理解安全概念导致了虚假的对齐现象。为了解决这个问题，引入了FAEF框架和两个新的指标，Consistency Score (CS)和Consistent Safety Score (CSS)，以综合评估和纠正性能估计偏差。应用FAEF框架到14个广泛使用的大型语言模型后，发现虽然之前它们被视为安全模型，但在实践中它们的对齐程度不高，突显了现有对齐方法的局限性。

Nov, 2023

您的“安全”数据中有什么？：识别破坏安全性的良性数据

通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点，我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。

Apr, 2024

通过概念激活向量揭示开放源代码LLMs中的安全风险

通过概念模型解释从大规模语言模型中提取安全概念激活向量（SCAVs），我们介绍了一种LLM攻击方法，可以对经过充分安全对齐的LLMs如LLaMA-2进行高效攻击，达到近100%的攻击成功率，表明即使经过彻底的安全对齐，LLMs在公开发布后仍可能对社会造成潜在风险。

Apr, 2024

大规模语言模型的全面高效后编程安全对齐

我们提出了一种后安全对齐（PSA）方法，以解决目前大型语言模型（LLMs）中脆弱和不平衡的安全机制问题，并且能够提升安全性、减轻过度安全性，并在保持实用性的同时无缝集成到目标LLM中。实验表明，这种方法不仅实现了比基准方法更全面和高效的后安全对齐，还增强了骨干模型的实用性，在当前对齐的LLMs中优化了有用性和无害性之间的平衡，同时在持续PSA场景下展示了其优越性。

May, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为“安全盆地”的普遍现象，该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE安全度量标准，用于通过探测安全景观来衡量LLMs微调的安全性，并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。

May, 2024

安全对齐不应仅限于几个标记

当前大型语言模型（LLM）存在的安全对齐问题容易受到攻击，我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在，并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞，包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时，我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向，并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之，我们主张未来的安全对齐应该超越前几个标记而更加深入。

Jun, 2024

通过不安全解码路径生成探究大型语言模型的安全响应边界

本研究旨在揭示大型语言模型（LLMs）的潜在安全漏洞，尽管它们通常具备安全响应功能，实际上依然存在未被发现的风险。我们提出了一种名为监狱值解码（JVD）的新解码策略，该策略利用成本值模型作为检测器和攻击者，成功诱导安全模型生成有害内容。研究发现，LLMs可能被用作收集有害数据或发起隐秘攻击的工具，表明其安全性不足。

Aug, 2024

无过度：通过安全意识激活引导减轻大语言模型的夸大安全

本研究解决了安全对齐的大语言模型（LLMs）因夸大安全问题而拒绝善意查询的困境，限制了其有用性。提出的安全意识激活引导（SCANS）方法通过提取拒绝引导向量，识别引导方向，使模型行为达到夸大安全与适当安全之间的平衡。实验表明，SCANS在多个基准测试中实现了最新的领先性能，未削弱对恶意查询的防御能力，同时保持模型能力几乎不变。

Aug, 2024

通过生成不安全解码路径探讨大型语言模型的安全响应边界

本研究针对大型语言模型（LLMs）潜在的安全漏洞进行了深入探讨，特别是即使在表面上看似安全的情况下，也可能存在隐患。我们提出了一种新颖的解码策略——监狱逃生价值解码（JVD），通过成本值模型来检测和利用这些弱点，从而暴露出当前安全标准的局限性。这一发现提示我们，即便语言模型在防止有害内容方面表现良好，仍需保持警惕，因为它们可能被用于恶意活动。

Aug, 2024