Oct, 2023

MoPe: 基于模型扰动的语言模型隐私攻击

TL;DR使用模型摄动法(MoPe)添加噪声到训练数据的模型参数空间,并测量参数点 $x$ 处对数似然的降低,得到了具有高置信度的预训练语言模型训练数据的方法。对涵盖从 70M 到 12B 参数的语言模型进行实验,发现 MoPe 比现有的基于损失的攻击和最近提出的摄动方法更有效。此外,还对训练点顺序和模型大小在攻击成功中的作用进行了研究,并实证了 MoPe 在实践中准确近似了 Hessian 矩阵的迹。结果表明,仅仅通过损失值无法确定能否提取信息,我们的方法可以恢复一些平均损失的训练点,对之前使用损失值作为记忆或遗忘证据的研究结果产生了一定的怀疑。