- AgentDojo:评估 LLM 智能体的攻击和防御的动态环境
AI agents vulnerable to prompt injection attacks are evaluated for adversarial robustness using the AgentDojo framework, - 知识回归导向提示 (KROP)
引入了 KROP,一种能够混淆提示注入攻击并使其对大多数安全措施几乎不可检测的注入技术。
- 捕捉具有激活的 LLM 任务漂移
通过扫描和分析语言模型的激活状态,我们提出了两种探测方法,发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移,且其泛化能力出乎意料地适用于未知任务领域,如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本,最大 - ACL对思维链的先发性回答 “攻击
通过预先答案的场景和两种措施,本文探讨了大型语言模型的推理能力的鲁棒性问题。
- 基于优化的提示注入攻击 LLM-as-a-Judge
LLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-J - 通过突出特征抵御间接提示注入攻击
通过使用聚焦技术,我们引入了一种对抗间接提示注入攻击的有效防御方法,该方法能够改进大型语言模型在识别多个输入源时的能力,并显著降低攻击成功率而对任务有效性影响最小。
- 大规模语言模型在提示注入攻击下的机器翻译伸缩行为
研究了大型语言模型在机器翻译任务上的指令注入攻击,发现在某些条件下,更大的模型可能更容易受到成功攻击的影响,这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。
- 大规模语言模型的自动且通用提示注入攻击
自动梯度方法生成高效、通用的提示注入数据,彰显梯度测试的重要性,尤其是对于防御机制。
- 神经执行:针对提示注入攻击的学习(和对学习的利用)执行触发器
我们引入了一种新型的注入攻击家族,被称为神经执行。与依赖手工制作字符串(例如 “忽略之前的指令并...”)的已知攻击不同,我们展示了将执行触发器的创建概念化为可微分的搜索问题,并使用基于学习的方法自动生成它们的可能性。我们的结果表明,一个有 - 通过上下文推断减轻语言模型中强先验问题
我们开发了一种新技术来减轻强偏好问题,通过将原始指令集产生一个弱化版本的提示并从弱化的提示中推断模型如何继续执行一个假设加强的指令集,我们将语言模型概念化为混合模型,并对 GPT-2、GPT-3、Llama 2 和 Mistral 等模型进 - Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模 - 评估 200 + 定制 GPT 的提示注入风险
本文提供了一份对 AI 自定义 GPT 模型中提示注入的分析,并评估了此类攻击的可能缓解措施,结果强调了在设计和部署可定制的 GPT 模型时迫切需要强大的安全框架,以确保 GPT 定制化的好处不会以安全和隐私的牺牲为代价。
- 张量信任:从在线游戏的可解释提示注入攻击
大型语言模型( LLMS ) 在现实世界应用中越来越多,但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集,为研究者 - LLM 集成应用中的提示注入攻击与防御
大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞,现有研究有限且缺乏系统性,本文提出了一般性的框架来理解和设计这种攻击,同时也提出了对应的防御框架,并基于 10 个 LLM 和 7 个任务进行了系统评估。
- LLM 集成应用的提示注入攻击
本研究检验了大型语言模型中已存在的 Prompt Injection 攻击,设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术,并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等 - 应用与集成的大型语言模型新型提示注入威胁的全面分析
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。