ACLJun, 2024

BadAgent:在 LLM 代理中插入和激活后门攻击

TL;DR利用大型语言模型构建智能代理存在潜在的后门攻击风险,即使在可信数据上进行微调也无法防御,这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。