大规模语言模型应用的词汇攻击

Apr, 2024

Vocabulary Attack to Hijack Large Language Model Applications

Patrick Levi, Christoph P. Neumann

TL;DR使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Abstract

The fast advancements in large language models (LLMs) are driving an increasing number of applications. Together with the growing number of users, we also see an increasing number of attackers who try to outsmart

large language models attackers confidential information false information offensive behavior

发现论文，激发创造

迫使语言模型（LLMs）做和透露（几乎）任何事情

广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。

Feb, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

基于词汇的零训练后门攻击语言模型

本文提出了一种无需额外训练的语言模型后门攻击方法 TFLexAttack，通过操作 language model 的嵌入字典，向 tokenizer 注入词汇触发器，实现攻击的隐秘性，实验结果表明该攻击方法的普遍性和有效性。

Feb, 2023

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

在大型语言模型中使用视觉对抗样本错误使用工具

大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险，本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性，同时保持隐秘性，并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击，并在多个维度上表征其性能。研究发现，我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具（准确率约为 98%），同时保持与原始图像的高相似度（约 0.9 SSIM）。此外，通过人工评分和自动化指标，我们发现这些攻击对用户与 LLM 之间的对话（及其语义）没有显著影响。

Oct, 2023

通过对抗性上下文学习劫持大型语言模型

通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Nov, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

Imposter.AI：面向对齐大型语言模型的带有隐藏意图的对抗攻击

本研究揭示了一种利用人类对话策略从大型语言模型中提取有害信息的攻击机制，并通过实验证明了该方法优于传统攻击方法，引发了如何辨别对话中的恶意意图的重要问题。

Jul, 2024

三明治攻击：针对 LLMs 的多语言混合自适应攻击

本文介绍了一种新的黑盒攻击向量 —— 三明治攻击，通过操纵最先进的大型语言模型（LLMs）生成有害和不一致的回答，旨在引导未来的研究和发展，使 LLMs 更加安全可靠，确保它们为公共利益服务并最大程度地减少滥用的潜力。

Apr, 2024