ICMLFeb, 2022

去重训练数据减缓语言模型的隐私风险

TL;DR该研究显示,大型语言模型在面对隐私攻击时,其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系,而消除重复数据的方法可以显著提高语言模型的隐私安全性。