利用自我评估抵御对LLM的敌对攻击

Jul, 2024

利用自我评估抵御对LLM的敌对攻击

Self-Evaluation as a Defense Against Adversarial Attacks on LLMs

Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh

TL;DR训练和指导LLMs拒绝生成不安全、带偏见或侵犯隐私的输出，在敏感的人机交互环境中使用LLMs时至关重要。通过给输入的末尾添加一个空格，我们发现可以简单地突破模型的防御，导致大多数模型生成具有极高成功率的有害输出，这与训练数据中单个空格出现的上下文鼓励模型在提示时生成列表，从而覆盖了拒绝回答不安全请求的训练信号。我们的发现凸显了当前模型对齐的脆弱状态，并强调了开发更具鲁棒性的对齐方法的重要性。

Abstract

When llms are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as "Tell me how to build a bomb." We find that

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

LLM自卫：通过自我检验，LLM知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

针对对齐语言模型的对抗攻击的基线防御

大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM安全性与计算机视觉有何不同？我们对LLM上的领先对抗性攻击评估了几种基线防御策略，讨论了每种策略在各种可行和有效的设置中的情况。特别地，我们研究了三种防御类型：检测（基于困惑度），输入预处理（改写和重标记）和对抗训练。我们讨论了白盒和灰盒设置，并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是，我们在过滤和预处理方面获得了比其他领域（如视觉）预期的更多成功，这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。

Sep, 2023

针对对抗引导的 LLM 安全性认证

我们提出了第一个具有可验证安全保证的消除-检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除token并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御，并且在保证处理安全提示的性能的同时，显著提高了在有害提示上的安全保证指标。

Sep, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

软提示威胁：通过嵌入空间在开源LLMs中攻击安全对齐和遗忘

该研究探讨了开源LLM模型中潜在的敌对攻击方法，发现利用嵌入空间进行攻击可以更高效地触发危险行为，并提出了一种新的威胁模型，展示了嵌入空间攻击从正在学习和删除的LLM模型中提取已删除信息的能力。

Feb, 2024

迫使语言模型（LLMs）做和透露（几乎）任何事情

广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。

Feb, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

单字扰动破坏LLM对齐

在敏感、面向人类的环境中部署LLMs时，确保不输出不安全、偏见或侵犯隐私的结果是至关重要的。本研究发现，尽管存在这些保护措施，但只需在模型输入的末尾添加一个空格，就可以很容易地破坏模型的防御机制。我们对八个开源模型进行研究后发现，这种攻击足以导致大多数模型生成有害输出，且成功率非常高。我们还分析了这种行为的原因，并发现在模型训练数据的标记化过程中，出现单个空格的上下文会鼓励模型在受到提示时生成列表，从而覆盖拒绝回答不安全请求的训练信号。我们的研究结果凸显了当前模型对齐的脆弱状态，并强调了开发更强大的对齐方法的重要性。代码和数据可在此https URL获得。

Jul, 2024

模型划图：评估对基于语言模型的编程助手的对抗攻击的影响

LLM-based编程助手可以加快编程速度，但可能引入更多安全漏洞。我们介绍了恶意编程提示（MaPP）攻击，通过向编程任务的提示中添加少量文本（小于500字节），我们展示了我们的提示策略如何使LLM在编写其他正确代码的同时添加漏洞。我们在七个常见LLM上评估了三个提示，并使用HumanEval基准测试发现我们的提示在广泛范围内有效，不需要针对不同LLM进行定制化。此外，最适合HumanEval的LLM也最适合遵循我们的恶意指令，这表明简单扩展语言模型无法防止MaPP攻击。通过16种情景中八个CWE的数据集，我们发现MaPP攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护LLM提示免受操纵的需求，并且需要对借助LLMs生成的代码进行严格审计。

Jul, 2024