在一分钟内对语言模型进行快速对抗攻击

Feb, 2024

在一分钟内对语言模型进行快速对抗攻击

Fast Adversarial Attacks on Language Models In One GPU Minute

Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini...

TL;DR我们介绍了一种新型的快速、基于束搜索的对抗攻击（BEAST）方法，它采用可解释的参数，使攻击者能够在攻击速度、成功率和对抗提示的可读性之间进行平衡。BEAST 的计算效率使我们能够在语言模型的越狱、产生幻觉和隐私攻击方面进行研究，并通过人工换算、量化性能提升攻击现有的成员推断攻击。我们相信，我们的快速攻击方法 BEAST 有助于加速语言模型安全和隐私研究。

Abstract

In this paper, we introduce a novel class of fast, beam search-based adversarial attack (BEAST) for →

adversarial attack language models fast beam search lm security

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

通过 Beam Search 和混合语义空间生成高质量的文本对抗样本（High-quality Textual Adversarial Examples）

本研究提出了 BeamAttack，这是一种文本攻击算法，利用混合语义空间和改进的 Beam 搜索来制作高质量的对抗攻击示例，可在对模型进行攻击时提高攻击成功率并节省大量查询和时间。

Mar, 2023

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

通过利用生成技术实现对开源 LLMs 的灾难性越狱

通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。

Oct, 2023

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

BERT 失去耐心不会对抗对抗性放缓有鲁棒性

通过系统评估我们提出的减速攻击对多出口语言模型的鲁棒性，我们发现多出口机制越复杂，越容易受到减速攻击的影响，并且在对抗训练方面的效果有限，但使用会话模型进行输入清理可以有效去除扰动。这一研究表明需要进一步开发高效且鲁棒的多出口模型。

Oct, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023