Sep, 2024

大规模语言模型成员推断的数量级加速

TL;DR本研究解决了大规模语言模型(LLMs)在成员推断攻击中的隐私风险,现有方法依赖多次训练计算开销大的影子模型,导致评估风险的成本高昂。本文提出了一种低成本的成员推断攻击方法,利用小型分位回归模型的集成,以有效判定文档是否属于训练集。实验结果显示,该方法在计算预算仅为现有方法6%的情况下,取得了与最先进方法相当或更好的精度,并在多种模型和数据集上展现了强大的有效性。