Nov, 2023

JAB: 联合对抗提示和信念增强

TL;DR通过对黑盒目标模型进行敌对激励并通过迭代反馈循环使用信念增强,我们引入了一个联合框架来同时探测和改进语言模型的安全性和鲁棒性。通过使用自动红队测试方法探测目标模型,以及使用信念增强器生成指令以提高目标模型对敌对探测的鲁棒性,该框架实现了对目标模型的鲁棒性的提升。在实验中,我们证明了这样一个框架可以减少动态交互和静态基准数据集评估模型的有毒内容生成。