本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
本文介绍了一种用于测量和攻击大型语言模型中 Prompt 的框架,通过实验展示了文本攻击可以高概率地成功提取 prompt。
Jul, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
该综述研究了快速建模在发挥大型语言模型的能力方面的关键作用,探讨了角色激励、单次指示、观点链、观点树等快速建模的基本原则和高级方法,并阐述了外部插件如何协助此任务并减少机器幻觉,强调了深入了解结构和代理角色在人工智能生成内容工具中的重要性,最后讨论了在教育和编程等领域中应用快速建模的实践和潜力。
通过对大语言模型进行随机组成的实验,研究了任务描述、示例输入、标签、行内指令等多个因素对模型性能的影响,发现重复文本、大型模型以及任务和行内指令对模型性能提升具有积极影响。
Apr, 2024
大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而,发布 ChatGPT 和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的攻击方式。相反,开发人员试图同时发现这些漏洞并阻止攻击。在本文中,我们概述了这些新出现的威胁,并提供提示注入的分类,以指导未来有关提示注入的研究,并作为在 LLM 接口开发中漏洞检查清单。此外,基于先前的文献和我们自己的实证研究,我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。
Jan, 2024
通过构建元提示(meta-prompt)从而更有效地引导大型语言模型(LLMs)进行自动提示工程,进而优化其性能。
Nov, 2023
自动梯度方法生成高效、通用的提示注入数据,彰显梯度测试的重要性,尤其是对于防御机制。
Mar, 2024