潘多拉的白箱:开放式 LLM 中训练数据泄露的增加
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。
Nov, 2023
通过对神经语言模型进行对抗性微调,以增强其对预训练数据的保留,本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似,我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。
Feb, 2024
成员推理攻击的大规模评估发现在多种设置中,大型语言模型的预训练数据上的成员推理攻击表现较差,主要原因是庞大数据集和较少训练迭代之间的结合,以及成员和非成员之间存在模糊的边界。我们识别出特定的设置,这些设置中语言模型易受成员推理攻击影响,并证明这种成功可以归因于分布变化,例如成员和非成员从看似相同的领域,但具有不同的时间范围。我们提供了代码和数据,形成了一个统一的基准测试套件,包括所有现有的成员推理攻击方案,以支持未来的研究工作。
Feb, 2024
研究表明,通过对用户数据进行细调的大型语言模型(LLMs)存在用户推测攻击的隐私风险,攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调,通过限制单个用户的细调样本数量可以减少攻击效果,但也会降低细调数据总量。
Oct, 2023
自然语言处理模型在最近几年中经历了显著的提升,其上已建立了许多应用。然而,这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调,这些微调数据往往含有个人或敏感信息,增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性,整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明,某些训练方法能显著降低隐私风险,其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。
Mar, 2024
大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 PII)。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取,给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论,并针对这些问题制定相应的政策。
Jul, 2023
我们的研究对联邦学习在训练大规模语言模型时的隐私分析进行了广泛的研究,从理论和实践角度设计了两种具有理论成功率的主动成员推断攻击,揭示了包括 BERT、RoBERTa、DistilBERT 和 OpenAI 的 GPT 在多个真实世界的语言数据集中存在的重大隐私漏洞,并评估了这些模型在采用最先进的差分隐私机制保护数据时的隐私泄漏情况。
Mar, 2024
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的 Pile 数据集的训练集和测试集,无任何错误的正例。
Jun, 2024
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023