远程按键记录攻击对 AI 助手的影响
本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁,通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。
Apr, 2023
我们提出了一种名为 prompt stealing attacks 的新攻击,该攻击旨在基于生成的答案窃取设计良好的 prompt,通过参数提取器和提示重构器实现,实验结果表明攻击的卓越性能,进一步引发关于大型语言模型安全问题的关注。
Feb, 2024
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而,发布 ChatGPT 和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的攻击方式。相反,开发人员试图同时发现这些漏洞并阻止攻击。在本文中,我们概述了这些新出现的威胁,并提供提示注入的分类,以指导未来有关提示注入的研究,并作为在 LLM 接口开发中漏洞检查清单。此外,基于先前的文献和我们自己的实证研究,我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。
Jan, 2024
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
借助五感、属性、情感状态、与交互者的关系和记忆,我们提出了一种新的方法来从大型语言模型中生成更加真实、一致的回答,旨在增强大型语言模型在会话交流中生成自然、真实反应的能力。通过我们的研究,我们希望为模仿小说人物的大型语言模型的改进能力做出贡献。我们在我们的 GitHub 上发布了一个新的基准数据集以及所有的代码、提示和样例结果。
Dec, 2023
大型语言模型(LLM)助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot,后者还提供了构建适当提示的指南。但令人惊讶的是,虽然 SoftAIBot 优于基准 LLM,但我们的结果显示,无论是否使用提示指南和领域上下文的集成,LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联,并且通常逐字逐句地遵循 LLM 的建议,即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难,降低了任务完成率。我们的详细分析还表明,用户对 LLM 的回应中的错误毫不知情,这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加,我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性,以帮助用户理解基于提示的交互,识别偏见,并最大化 LLM 助手的效用。
Feb, 2024
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023