单字扰动破坏LLM对齐

Jul, 2024

Single Character Perturbations Break LLM Alignment

Leon Lin, Hannah Brown, Kenji Kawaguchi, Michael Shieh

TL;DR在敏感、面向人类的环境中部署LLMs时，确保不输出不安全、偏见或侵犯隐私的结果是至关重要的。本研究发现，尽管存在这些保护措施，但只需在模型输入的末尾添加一个空格，就可以很容易地破坏模型的防御机制。我们对八个开源模型进行研究后发现，这种攻击足以导致大多数模型生成有害输出，且成功率非常高。我们还分析了这种行为的原因，并发现在模型训练数据的标记化过程中，出现单个空格的上下文会鼓励模型在受到提示时生成列表，从而覆盖拒绝回答不安全请求的训练信号。我们的研究结果凸显了当前模型对齐的脆弱状态，并强调了开发更强大的对齐方法的重要性。代码和数据可在此https URL获得。

Abstract

When llms are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

LLM自卫：通过自我检验，LLM知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

通过强鲁棒对齐的LLM防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心LLMs可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对RA-LLM的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明RA-LLM可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近100％降低到约10％或更低。

Sep, 2023

通过利用生成技术实现对开源LLMs的灾难性越狱

通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使11种语言模型的对齐率从0%提高到超过95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。

Oct, 2023

迫使他们坦白！从（生产）LLM中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到92％，速度快10到20倍，对编码任务也适用。

Dec, 2023

软提示威胁：通过嵌入空间在开源LLMs中攻击安全对齐和遗忘

该研究探讨了开源LLM模型中潜在的敌对攻击方法，发现利用嵌入空间进行攻击可以更高效地触发危险行为，并提出了一种新的威胁模型，展示了嵌入空间攻击从正在学习和删除的LLM模型中提取已删除信息的能力。

Feb, 2024

无二恶: 揭示微调攻击的不同机制

大型语言模型的现有安全对齐方式存在脆弱性，并可通过不同策略进行攻击，如对几个有害示例进行微调或操纵生成结果的前缀。本文通过研究两种攻击方法的机制发现，它们差异巨大，强调了理解大型语言模型内部安全保障过程的重要性，并建议需要多样的防御机制来应对各种类型的攻击。

May, 2024

安全对齐不应仅限于几个标记

当前大型语言模型（LLM）存在的安全对齐问题容易受到攻击，我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在，并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞，包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时，我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向，并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之，我们主张未来的安全对齐应该超越前几个标记而更加深入。

Jun, 2024

利用自我评估抵御对LLM的敌对攻击

训练和指导LLMs拒绝生成不安全、带偏见或侵犯隐私的输出，在敏感的人机交互环境中使用LLMs时至关重要。通过给输入的末尾添加一个空格，我们发现可以简单地突破模型的防御，导致大多数模型生成具有极高成功率的有害输出，这与训练数据中单个空格出现的上下文鼓励模型在提示时生成列表，从而覆盖了拒绝回答不安全请求的训练信号。我们的发现凸显了当前模型对齐的脆弱状态，并强调了开发更具鲁棒性的对齐方法的重要性。

Jul, 2024

对齐大语言模型的安全层：LLM安全的关键

本研究针对对齐大语言模型在安全性方面的挑战，阐明了内部参数在安全维护中的作用，揭示了识别恶意查询的关键“安全层”。提出了一种新颖的微调方法——安全部分参数微调(SPPFT)，有效防止了安全性下降，同时节省计算资源，保持模型性能。

Aug, 2024