一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
本文提出了一种基于令牌级别检测方法来识别对抗提示的方法,利用大型语言模型的能力来预测下一个令牌的概率,测量模型的困惑度并结合相邻令牌信息,以鼓励检测连续的对抗提示序列,提出了两种方法:一种将每个令牌识别为是否属于对抗提示的一部分,另一种估计每个令牌属于对抗提示的概率。
Nov, 2023
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
本研究使用 adversarial prompts 对 Large Language Models 进行度量,并分析了 prompt 鲁棒性及其传递性,为 prompt 组合提供了实用性建议。
Jun, 2023
本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术,包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法,并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。
Mar, 2022
本文提出了一种基于 prompt 的对抗攻击方法,通过设计启发式算法和贪婪算法,在黑匣子场景下成功攻击了手动模板,并在多个分类任务中验证了其有效性和泛化能力。
Jun, 2023
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022