Aug, 2024

利用上下文后门攻击破坏具身代理

TL;DR本研究揭示了大型语言模型在具身智能开发中存在的严重后门安全威胁,并提出了一种新方法,通过污染少量上下文示例,攻击者能够秘密地破坏黑箱LLM的上下文环境,生成逻辑上合理但具有上下文依赖缺陷的程序。这些缺陷程序在特定触发条件下会引发意外行为,研究结果显示该方法在攻击真实世界的自主驾驶系统上具有潜在影响。