Feb, 2023

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

TL;DR应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战,并通过两步骤的方法成功地从中提取了样本,其中第一步骤成功提取 69%的样本的后缀;接着,使用基于分类器的成员推断攻击对生成式进行检测,其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率,相对于基线提高了 34%,完整方法在 10%误报率下以 0.405 召回率得分,研究表明大型语言模型容易受到数据提取攻击,其隐私风险需要引起重视。