一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
通过使用 AdvPrompter 方法,本文提出了一种用于生成人类可读的敌对提示的新方法,生成的提示可以在几秒钟内完成,比现有的基于优化的方法快 800 倍,该方法使得大型语言模型(LLMs)更加抵抗破解攻击而实现高性能。
Apr, 2024
本文提出了一种基于令牌级别检测方法来识别对抗提示的方法,利用大型语言模型的能力来预测下一个令牌的概率,测量模型的困惑度并结合相邻令牌信息,以鼓励检测连续的对抗提示序列,提出了两种方法:一种将每个令牌识别为是否属于对抗提示的一部分,另一种估计每个令牌属于对抗提示的概率。
Nov, 2023
LLM-based 编程助手可以加快编程速度,但可能引入更多安全漏洞。我们介绍了恶意编程提示(MaPP)攻击,通过向编程任务的提示中添加少量文本(小于 500 字节),我们展示了我们的提示策略如何使 LLM 在编写其他正确代码的同时添加漏洞。我们在七个常见 LLM 上评估了三个提示,并使用 HumanEval 基准测试发现我们的提示在广泛范围内有效,不需要针对不同 LLM 进行定制化。此外,最适合 HumanEval 的 LLM 也最适合遵循我们的恶意指令,这表明简单扩展语言模型无法防止 MaPP 攻击。通过 16 种情景中八个 CWE 的数据集,我们发现 MaPP 攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护 LLM 提示免受操纵的需求,并且需要对借助 LLMs 生成的代码进行严格审计。
Jul, 2024
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
本研究使用 adversarial prompts 对 Large Language Models 进行度量,并分析了 prompt 鲁棒性及其传递性,为 prompt 组合提供了实用性建议。
Jun, 2023
本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术,包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法,并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。
Mar, 2022
通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明,区域特定风险是最普遍的风险类型,是我们所研究的所有中文 LLM 的主要问题。
Feb, 2024