May, 2024

学习大型语言模型上多样化的攻击方法,用于鲁棒性红队和安全优化

TL;DR使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练,生成多样且有效的攻击触发词,攻击方法对多种目标大语言模型有效,且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。