无过度:通过安全意识激活引导减轻大语言模型的夸大安全
我们提出了第一个具有可验证安全保证的消除-检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除token并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御,并且在保证处理安全提示的性能的同时,显著提高了在有害提示上的安全保证指标。
Sep, 2023
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。
Oct, 2023
通过向大型语言模型注入木马激活向量,我们提出了一种名为后门激活攻击的新型攻击框架,使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵,该方法在主要的对齐任务上表现出高度的有效性,并且几乎不会给攻击效率增加任何开销,同时讨论了对抗此类激活攻击的潜在对策。
Nov, 2023
通过概念模型解释从大规模语言模型中提取安全概念激活向量(SCAVs),我们介绍了一种LLM攻击方法,可以对经过充分安全对齐的LLMs如LLaMA-2进行高效攻击,达到近100%的攻击成功率,表明即使经过彻底的安全对齐,LLMs在公开发布后仍可能对社会造成潜在风险。
Apr, 2024
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
May, 2024
我们提出了一种后安全对齐(PSA)方法,以解决目前大型语言模型(LLMs)中脆弱和不平衡的安全机制问题,并且能够提升安全性、减轻过度安全性,并在保持实用性的同时无缝集成到目标LLM中。实验表明,这种方法不仅实现了比基准方法更全面和高效的后安全对齐,还增强了骨干模型的实用性,在当前对齐的LLMs中优化了有用性和无害性之间的平衡,同时在持续PSA场景下展示了其优越性。
May, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为“安全盆地”的普遍现象,该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE安全度量标准,用于通过探测安全景观来衡量LLMs微调的安全性,并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。
May, 2024
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024
安全算术是一种训练-free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
Jun, 2024
本研究针对对齐大语言模型在安全性方面的挑战,阐明了内部参数在安全维护中的作用,揭示了识别恶意查询的关键“安全层”。提出了一种新颖的微调方法——安全部分参数微调(SPPFT),有效防止了安全性下降,同时节省计算资源,保持模型性能。
Aug, 2024