May, 2024

大型语言模型的上下文注入攻击

TL;DR通过在聊天系统中引入虚构的上下文,利用大型语言模型中的错误分类和上下文混淆的问题,可以进行上下文注入攻击,破坏实时交互的大型语言模型的安全性。研究发现了进行上下文注入攻击的策略并验证了其高成功率,同时提出了攻击检测和开发更安全模型的可能对策。