Mar, 2024

InjecAgent:在工具集成的大型语言模型代理中评估间接提示注入

TL;DR通过引入 InjecAgent 基准测试,评估 LLM agents 对 IPI attacks 的脆弱性,结果显示 LLM agents 易受攻击,ReAct-prompted GPT-4 在 24% 的情况下易受攻击,并结合加强的黑客提示进一步提高攻击成功率,对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。