Jun, 2024

大规模野外合作:从野外越狱到(对抗性地)更安全的语言模型

TL;DR引入了 WildTeaming 框架,该框架通过挖掘用户和聊天机器人的互动来发现新型越狱策略,从而实现对越狱的系统化探索,揭示了先前工作所没有发现的对于最新的 LLMs 的漏洞,导致比最先进的越狱方法多达 4.6 倍更多样化和成功的对抗攻击。还提出了 WildJailbreak,一个大规模的开源合成安全数据集,通过对现有安全资源的质量和规模进行升级,使我们能够研究数据的扩展效应以及数据属性和模型能力在安全训练过程中的相互作用,从而实现模型的平衡安全行为。