为指导调整的大型语言模型添加虚拟提示注入

Jul, 2023

为指导调整的大型语言模型添加虚拟提示注入

Virtual Prompt Injection for Instruction-Tuned Large Language Models

Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang...

TL;DR我们提出了虚拟提示注入（VPI）技术，用于调整指令的大型语言模型（LLM）。VPI 允许攻击者指定虚拟提示，在特定触发场景下引导模型行为，而无需显式地注入模型输入。我们通过污染模型的指令调整数据，演示了 VPI 的风险，并建议采用数据过滤作为一种有效的防御手段。

Abstract

We present virtual prompt injection (VPI) for instruction-tuned Large Language Models (LLMs). VPI allows an attacker-specified virtual prompt to steer the model behavior under specific trigger scenario without any explicit injection in model input. For instance, if an LLM is compromise

virtual prompt injection large language models instruction tuning data persistent attack data filtering

发现论文，激发创造

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

视觉提示学习中的后门

通过对视觉提示学习的后门攻击 (BadVisualPrompt)，我们发现对模型、提示和输入等级的七种后门防御都要么无效，要么不切合实际，从而表明了视觉提示学习 (VPL) 的关键性漏洞。

Oct, 2023

保护视觉语言模型免受已插入的视觉提示注入器的威胁

通过 SmoothVLM 防御机制，本文针对视觉 - 语言模型中的补丁式对抗性提示注入进行研究，取得了成功的攻击率降低和上下文恢复率提高的平衡。

May, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

指令调整的可利用性

介绍了一种名为 AutoPoisin 的自动数据污染技术，可通过注入恶意训练数据使语言模型出现漏洞，并展示了其中的两种攻击：内容注入和过度拒绝攻击。

Jun, 2023

大规模语言模型在提示注入攻击下的机器翻译伸缩行为

研究了大型语言模型在机器翻译任务上的指令注入攻击，发现在某些条件下，更大的模型可能更容易受到成功攻击的影响，这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。

Mar, 2024

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024