由噪音到清晰：通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀

Feb, 2024

由噪音到清晰：通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀

From Noise to Clarity: Unraveling the Adversarial Suffix of Large Language Model Attacks via Translation of Text Embeddings

PDF

Hao Wang, Hao Li, Minlie Huang, Lei Sha

TL;DR提出了一种能够将不可读的对抗性后缀转化为连贯可读文本的对抗性后缀嵌入翻译框架（ASETF），该方法在攻击成功率和提示文本的流畅性方面明显优于现有技术，并且可以推广为一种生成可成功攻击多种语言模型的可转移对抗性后缀的更广泛方法。

Abstract

The safety defense methods of large language models(LLMs) stays limited because the dangerous prompts are manually curated to just few known attack types, which fails to keep pace with emerging varieties. Recent

large language models adversarial suffixes defense methods translation framework llm attack

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

针对对抗引导的 LLM 安全性认证

我们提出了第一个具有可验证安全保证的消除 - 检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御，并且在保证处理安全提示的性能的同时，显著提高了在有害提示上的安全保证指标。

Sep, 2023

使用困惑度检测语言模型攻击

利用大型语言模型（LLMs）伪造对抗性后缀的新型黑客攻击方法，通过迷惑模型来生成危险回复。我们提倡使用困扰度作为一种识别潜在攻击方法的手段，以避免生成禁止回复。通过对使用和不使用对抗性后缀的查询进行困扰度评估，我们发现近 90% 的查询困扰度都超过 1000，这凸显了困扰度在检测此类攻击上的有效性。

Aug, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

对编码任务中大型语言模型的转移攻击和防御

现代大型语言模型（LLMs）在编码任务中表现出令人印象深刻的能力，如 ChatGPT，改进了以前的神经网络代码模型，例如 code2seq 或 seq2seq，这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而，这些以前的代码模型被显示为易受对抗性示例的攻击，即不改变程序语义的小的句法扰动，例如通过虚假条件包含 “死代码” 或添加无关紧要的打印语句，专为 “愚弄” 模型而设计。LLMs 也可能容易受到相同对抗性扰动的攻击，但迄今为止对此问题缺乏详细研究。本文旨在研究对 LLMs 的编码任务的对抗性扰动的影响。具体而言，我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对 LLMs 的可转移性。此外，为了使 LLMs 对此类对手更加强大，而无需重新训练的成本，我们提出了基于提示的防御措施，其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明，使用较小的代码模型获得的对抗性示例确实具有可转移性，削弱了 LLMs 的性能。提出的防御措施显示出改善模型的韧性的潜力，为与代码相关的应用的 LLMs 提供更加稳健的防御解决方案铺平了道路。

Nov, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

三明治攻击：针对 LLMs 的多语言混合自适应攻击

本文介绍了一种新的黑盒攻击向量 —— 三明治攻击，通过操纵最先进的大型语言模型（LLMs）生成有害和不一致的回答，旨在引导未来的研究和发展，使 LLMs 更加安全可靠，确保它们为公共利益服务并最大程度地减少滥用的潜力。

Apr, 2024

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024