Sep, 2023

为什么通用对抗攻击可以对大型语言模型起作用?几何可能是答案

TL;DR通过对包含 117M 个参数的 GPT-2 模型的攻击,我们发现这些通用对抗触发器可能仅仅是嵌入向量,它们近似于对抗训练区域中的语义信息,从而为大型语言模型的通用对抗攻击提供了一个新的几何学视角。