在连续攻击中，基于线性语言模型的高效对抗训练

May, 2024

在连续攻击中，基于线性语言模型的高效对抗训练

Efficient Adversarial Training in LLMs with Continuous Attacks

Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn

TL;DR通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性，我们提出了一种快速的对抗训练算法 (C-AdvUL)，通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒；我们还引入了 C-AdvIPO，这是一种对抗的 IPO 变体，不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明，这两个算法显著提高了 LLM 对离散攻击的鲁棒性，并保持了效用。这些结果表明，对连续扰动的鲁棒性可以外推到离散的威胁模型，为大规模对抗训练算法的鲁棒对齐 LLM 提供了一条路径。

Abstract

large language models (LLMs) are vulnerable to adversarial attacks that can bypass their safety guardrails. In many domains, adversarial training

large language models adversarial attacks adversarial training continuous embedding space robust alignment

发现论文，激发创造

使用投影梯度下降攻击大规模语言模型

通过控制连续放松引入的误差，我们改进了投影梯度下降（PGD）对连续放松输入提示的攻击方法，实现了与现有离散优化相同的毁灭性攻击结果，PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。

Feb, 2024

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

通过对抗性上下文学习劫持大型语言模型

通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Nov, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

在连续学习中维持对抗性鲁棒性

机器学习系统的安全性和可靠性需要对抗鲁棒性。然而，由于神经网络在学习新任务时容易忘记先前的对抗鲁棒性，复杂的防御算法所获得的对抗鲁棒性很容易被抹去。为了解决这个问题，我们提出了一种名为 “双梯度投影” 的方法，通过将权重更新的梯度正交投影到两个关键子空间上，实现连续鲁棒学习，这两个子空间一个用于稳定平滑的样本梯度，另一个用于稳定神经网络的最终输出。四个基准测试的实验结果表明，我们提出的方法有效地保持了连续鲁棒性，对抗强对抗攻击的效果优于结合现有防御策略和连续学习方法的基准线组成的方法。

Feb, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024