Sep, 2023

针对对齐语言模型的对抗攻击的基线防御

TL;DR大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明,文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题:在这个领域中,哪些威胁模型实际上是有用的?基线防御技术在这个新领域中的表现如何?LLM 安全性与计算机视觉有何不同?我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略,讨论了每种策略在各种可行和有效的设置中的情况。特别地,我们研究了三种防御类型:检测(基于困惑度),输入预处理(改写和重标记)和对抗训练。我们讨论了白盒和灰盒设置,并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是,我们在过滤和预处理方面获得了比其他领域(如视觉)预期的更多成功,这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。