Feb, 2024

在一分钟内对语言模型进行快速对抗攻击

TL;DR我们介绍了一种新型的快速、基于束搜索的对抗攻击(BEAST)方法,它采用可解释的参数,使攻击者能够在攻击速度、成功率和对抗提示的可读性之间进行平衡。BEAST 的计算效率使我们能够在语言模型的越狱、产生幻觉和隐私攻击方面进行研究,并通过人工换算、量化性能提升攻击现有的成员推断攻击。我们相信,我们的快速攻击方法 BEAST 有助于加速语言模型安全和隐私研究。