Jatmo:通过任务特定微调进行提示注入防御
LLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-Judge 的决策过程进行攻击,利用优化算法自动化生成对抗序列,实现有针对性和有效的模型评估操纵,相较于手工注入攻击,本方法表现出优越的效果,对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验,展示了 JudgeDeceiver 在不同案例中改变决策结果的能力,强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。
Mar, 2024
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞,现有研究有限且缺乏系统性,本文提出了一般性的框架来理解和设计这种攻击,同时也提出了对应的防御框架,并基于 10 个 LLM 和 7 个任务进行了系统评估。
Oct, 2023
通过 Prompt2Model 方法,可以使用少量的提示,训练出性能优异、体积小 700 倍的特定目的模型,用于自然语言处理任务。
Aug, 2023
我们提出了一个工具来帮助防御者执行已知提示注入攻击的自动变种分析,旨在自动生成给定提示的变种,并仅通过模型的输出自动确定变种的有效性。该工具还可以辅助生成破解和提示注入攻击的数据集,从而克服该领域数据稀缺的问题。
Dec, 2023
通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击,导致 ASR 更高。在此基础上,我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法,使大型语言模型能够区分指令和外部内容,并忽略外部内容中的指令。实验结果表明,我们的黑盒防御方法可以有效降低 ASR,但无法完全阻止间接提示注入攻击,而我们的白盒防御方法可以将 ASR 几乎降低到零,对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。
Dec, 2023
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
大型语言模型( LLMS ) 在现实世界应用中越来越多,但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集,为研究者研究这个问题提供帮助。这是目前最大的人为生成的用于指令跟随 LLMs 的对抗示例数据集。我们利用数据集创建了抵抗两种类型注入攻击的基准测试,并展示了很多模型对于 Tensor Trust 数据集中的攻击策略是脆弱的。此外,我们还展示了数据集中一些攻击策略在不同约束条件的部署 LLMs 应用中也具有普适性。我们在此 https URL 公布了所有的数据和源代码。
Nov, 2023
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023