Jul, 2024

AgentPoison: 通过缓冲区或知识库污染来对抗语言模型代理

TL;DRAgentPoison是一种新颖的后门攻击方法,针对使用长期记忆或RAG知识库的LLM代理,通过污染其内存或知识库实现恶意演示的优化后门触发器,攻击成功率高于80%,对正常性能的影响小于1%。