提示感染:多代理系统中的LLM到LLM提示注入
本研究讨论了如何通过注入恶意提示,以及从Web中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型(LLMs)进行Prompt Injection攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
本研究检验了大型语言模型中已存在的Prompt Injection攻击,设计了一种名为HouYi的黑盒Prompt Injection攻击技术,并发现其可造成诸如不受限制的任意LLM使用和简单的应用程序prompt窃取等严重影响。
Jun, 2023
本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力,讨论了LLM在支持特定威胁相关行动和决策方面的手动与自动化探索,以及对威胁网络潜在影响和使用LLM加速威胁行为能力的伦理考量,对诱导可操作反应的提示设计进行了评估和启发,并提出了探索LLM在更复杂网络、高级漏洞和提示敏感性方面的未解问题。
Oct, 2023
大型语言模型在LLM集成应用中存在提示注入攻击的安全漏洞,现有研究有限且缺乏系统性,本文提出了一般性的框架来理解和设计这种攻击,同时也提出了对应的防御框架,并基于10个LLM和7个任务进行了系统评估。
Oct, 2023
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析,并通过提示工程和语言模型的微调来实现“签名提示”概念的基本框架和实现。实验证明了“签名提示”方法的有效性,对各种类型的快速注入攻击具有相当的抵抗能力,从而验证了其作为一种强大的人工智能安全防御策略的潜力。
Jan, 2024
大语言模型和AI聊天机器人在使人工智能民主化方面处于前沿。然而,发布ChatGPT和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的攻击方式。相反,开发人员试图同时发现这些漏洞并阻止攻击。在本文中,我们概述了这些新出现的威胁,并提供提示注入的分类,以指导未来有关提示注入的研究,并作为在LLM接口开发中漏洞检查清单。此外,基于先前的文献和我们自己的实证研究,我们还讨论了提示注入对LLM终端用户、开发人员和研究人员的影响。
Jan, 2024
通过引入 InjecAgent 基准测试,评估 LLM agents 对 IPI attacks 的脆弱性,结果显示 LLM agents 易受攻击,ReAct-prompted GPT-4 在 24% 的情况下易受攻击,并结合加强的黑客提示进一步提高攻击成功率,对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。
Mar, 2024
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战,重点关注两个主要领域:Prompt Hacking和Adversarial Attacks,每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
通过构建详细的威胁模型和真实环境模拟,本文提出了一种新的两阶段攻击方法,包括说服力注入和操纵性知识注入,系统地探索了操纵性知识(例如假设性和有毒的知识)在基于大规模语言模型的多主体系统中的传播潜力。通过广泛的实验,展示了攻击方法能够成功诱导基于大规模语言模型的智能体传播假设性和有毒的知识,并且这种操纵可以在互动结束后继续影响智能体,进一步揭示了基于大规模语言模型的多主体系统中存在的重大安全风险,强调了对抗操纵性知识传播的强大防御措施的迫切性。
Jul, 2024