May, 2024

微小的改进引发韧性:朝着高效的前缀模型抵御 LLM 红队行动

TL;DR通过介绍基于 LLM 的哨兵模型,该论文提出一种即插即用的前缀模块,通过添加少量的 (<30) 令牌有效地减少目标 LLM 输出中的有毒内容,克服参数效率和模型可访问性的限制。我们采用交错训练方案,使用近端策略优化 (PPO) 来动态优化红队和哨兵模型,并结合通过多智能体集中批判者启发的值头共享机制来管理代理之间的复杂相互作用。我们在文本到文本和文本到图像的广泛实验中证明了我们方法的有效性,即使处理像 Llama-2、GPT-3.5 和 Stable-Diffusion 这样的大型模型也能降低有毒输出,突显了我们框架在提升各种应用程序的安全性和稳健性方面的潜力。