潘多拉的白箱:开放式LLM中训练数据泄露的增加
研究表明,通过对用户数据进行细调的大型语言模型(LLMs)存在用户推测攻击的隐私风险,攻击者可以通过仅需少量用户样本和黑盒访问细调后的LLMs来推断用户的数据是否被用于细调,通过限制单个用户的细调样本数量可以减少攻击效果,但也会降低细调数据总量。
Oct, 2023
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。
Nov, 2023
成员推理攻击的大规模评估发现在多种设置中,大型语言模型的预训练数据上的成员推理攻击表现较差,主要原因是庞大数据集和较少训练迭代之间的结合,以及成员和非成员之间存在模糊的边界。我们识别出特定的设置,这些设置中语言模型易受成员推理攻击影响,并证明这种成功可以归因于分布变化,例如成员和非成员从看似相同的领域,但具有不同的时间范围。我们提供了代码和数据,形成了一个统一的基准测试套件,包括所有现有的成员推理攻击方案,以支持未来的研究工作。
Feb, 2024
自然语言处理模型在最近几年中经历了显著的提升,其上已建立了许多应用。然而,这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调,这些微调数据往往含有个人或敏感信息,增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性,整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明,某些训练方法能显著降低隐私风险,其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。
Mar, 2024
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的Pile数据集的训练集和测试集,无任何错误的正例。
Jun, 2024
本研究解决了大型语言模型(LLMs)在隐私风险和版权问题审核上的缺口,提出了一种新颖的基于指令的成员推断攻击方法MIA-Tuner,通过指导LLMs自身作为更精确的预训练数据检测器,提升检测信心。此外,设计了两项基于指令的安全措施,以缓解隐私风险。实验结果表明,MIA-Tuner将MIA的AUC从0.7显著提高至0.9。
Aug, 2024
本研究解决了大规模语言模型(LLMs)在成员推断攻击中的隐私风险,现有方法依赖多次训练计算开销大的影子模型,导致评估风险的成本高昂。本文提出了一种低成本的成员推断攻击方法,利用小型分位回归模型的集成,以有效判定文档是否属于训练集。实验结果显示,该方法在计算预算仅为现有方法6%的情况下,取得了与最先进方法相当或更好的精度,并在多种模型和数据集上展现了强大的有效性。
Sep, 2024
本研究针对大型语言模型(LLMs)训练数据不透明的问题,提出了一种新颖的成员推断攻击(MIA)方法EM-MIA,利用期望最大化算法迭代改善成员评分和前缀评分。该方法在WikiMIA数据集上取得了最先进的结果,并通过OLMoMIA基准对MIA方法进行全面评估,推动了该领域的未来研究。
Oct, 2024
本研究解决了大语言模型中的会员推断攻击(MIA)在以往研究中表现不佳的问题。我们提出了一种新的评估基准,通过同时测试多份文档,验证现有MIA方法在更大规模下的有效性。最重要的发现是,当前的MIA方法在训练好的大语言模型中首次实现了成功的会员推断。
Oct, 2024
本研究针对监督微调过程中存在的敏感数据和隐私泄漏风险,提出了一种新的主动隐私审计框架“Parsing”,旨在识别和量化隐私泄漏风险。通过改进的白盒会员推断攻击方法,该框架提高了对大型语言模型(如GPT-2和Llama2)的隐私审计效果,为监督微调领域提供了可靠的隐私保护工具。
Nov, 2024