ICLRMar, 2024

教授 语言模型如何钓鱼:从中窃取私人信息

TL;DR本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击,可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息(PII),例如信用卡号码,攻击成功率高达 10%,有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子插入训练数据集,对用户数据的结构仅具有模糊的先验假设。