Jun, 2023
神经网络是否被对抗性对齐?
Are aligned neural networks adversarially aligned?
Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao...
TL;DR本篇研究探索大型的自然语言处理模型是否能够抵御用户故意输入的对抗性样本(adversarial examples)的攻击,进一步研究多模型模型在敌对攻击下的表现。结果发现,虽然当前的 NLP 攻击在某种程度上是无效的,但多模型模型很容易受到攻击,需要更好的 NLP 攻击方法来对抗对恶意输入的敌对控制。