PRSA:大型语言模型的提示反窃取攻击
我们提出了一种名为 prompt stealing attacks 的新攻击,该攻击旨在基于生成的答案窃取设计良好的 prompt,通过参数提取器和提示重构器实现,实验结果表明攻击的卓越性能,进一步引发关于大型语言模型安全问题的关注。
Feb, 2024
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析,并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性,对各种类型的快速注入攻击具有相当的抵抗能力,从而验证了其作为一种强大的人工智能安全防御策略的潜力。
Jan, 2024
自动回归选择性替代提升(ASRA)是一种离散优化算法,基于优质性和决定性点过程(DPP)的相似性选择提示,以发现和修改预训练语言模型潜在的有害输出。实验结果表明,ASRA 在六种不同的预训练语言模型上有效地引发了有害内容,并显示出与目标输出的困惑程度之间的强相关性,而与模型参数数量的相关性有限。
Mar, 2024
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
通过使用梯度优化的方法,我们提出了一种防御语言模型遭受恶意输入攻击的算法,Robust Prompt Optimization (RPO),有效地降低了对抗性攻击的成功率,并在黑盒模型中表现出了良好的转移能力。
Jan, 2024
通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP(自我对抗攻击系统提示)方法进行监狱破解,本研究发现了 Multimodal Large Language Models(MLLMs)的潜在安全风险并提出了相应的防御方法,以显著降低监狱破解的成功率。
Nov, 2023
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023