Jun, 2024

大型语言模型的语义成员推断攻击

TL;DR通过利用输入和其扰动的语义内容,我们引入了一种新的方法 —— 语义成员推断攻击(SMIA),从而提高成员推断攻击(MIAs)的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估,结果表明 SMIA 在 AUC-ROC 方面显著优于现有的 MIAs,例如,与第二好的攻击相比,SMIA 在 Pythia-12B 上实现了 67.39% 的 AUC-ROC,而第二好的攻击仅为 58.90%。