Jun, 2024
大型语言模型的事后成员推断的固有挑战
Inherent Challenges of Post-Hoc Membership Inference for Large Language
Models
TL;DR通过使用简单的词袋分类器,我们发现最近的后续成员推理攻击(MIAs)研究中使用的数据集存在显著的分布偏移,这意味着先前报道的高MIA性能可能主要归因于这些偏移而不是模型的记忆。为了解决这个问题,我们提出了回归不连续设计(RDD)方法来减轻分布偏移。在这种RDD设置下评估各种MIA方法的性能表现几乎与随机猜测相当,与先前报道的结果截然不同。总之,我们的研究结果凸显了准确衡量LLM记忆的挑战,以及在(后续)成员推理任务中需要仔细进行实验设计的必要性。