Jun, 2024

基础模型盲目基准优于基金会模型的成员推断攻击

TL;DR成员推理攻击通过确定数据样本是否用于训练机器学习模型,可以检测版权训练材料,衡量测试集的污染程度或审计机器遗忘。然而,对于基于未知网络数据训练的基础模型的成员推理攻击的评估存在缺陷,因为它们从不同的分布中对成员和非成员进行采样。对于 8 个已发布的成员推理评估数据集,我们显示盲攻击 - 区分成员和非成员分布而不查看任何训练模型 - 胜过最先进的成员推理攻击。因此,现有的评估对于基础模型的训练数据的成员泄漏没有任何作用。