通过惊讶标记的自适应预训练数据检测用于大型语言模型
使用大型语言模型,本研究探索了替代标记符的可行性,以保护用户隐私,分析了不同方法的实验结果,在下游语言建模任务中实现了与原始数据训练相媲美的性能。
Sep, 2023
通过Min-K% Prob方法,我们研究了大语言模型的预训练数据检测问题,引入了WIKIMIA动态基准和一个简单的假设,达到了7.4%的改进。我们将该方法应用于版权图书检测和受污染下游示例检测,发现它是一种始终有效的解决方案。
Oct, 2023
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。
Nov, 2023
基于检索增强的大型语言模型在各种NLP任务中取得了显着的成功。然而,检索过程提供的知识并不总是有助于提高模型的预测能力。为了节省检索成本,先前的工作通过分析语言模型的预训练数据来决定何时执行/跳过检索。然而,这些面向数据的方法存在隐私风险和内存限制问题。本文提出基于标记嵌入的模型感知方法,以更安全直接的方式判断是否需要执行检索,同时避免访问预训练数据所带来的隐私风险,并简化了模型预训练过程中数据的保存要求。大量实验证明了我们的模型感知方法的优越性。
Apr, 2024
通过条件语言建模开展一个新的成员推理攻击,称为ReCaLL,以检测大型语言模型的预训练数据,并展示其在WikiMIA数据集上能够达到最先进的性能。
Jun, 2024
本研究解决了大型语言模型(LLMs)在隐私风险和版权问题审核上的缺口,提出了一种新颖的基于指令的成员推断攻击方法MIA-Tuner,通过指导LLMs自身作为更精确的预训练数据检测器,提升检测信心。此外,设计了两项基于指令的安全措施,以缓解隐私风险。实验结果表明,MIA-Tuner将MIA的AUC从0.7显著提高至0.9。
Aug, 2024
本文解决了大型语言模型训练数据的隐私和安全风险问题,提出了一种新颖的对比解码方法Con-ReCall。通过同时考虑成员和非成员上下文的分布差异,本文的研究表明,这种方法能够有效识别预训练数据,并在WikiMIA基准测试中展示了卓越的性能和对文本操纵技术的鲁棒性。
Sep, 2024
本研究解决了大型语言模型预训练数据透明性不足的问题,提出了一种基于发散的校准方法,以提高数据检测的准确性。该方法通过计算令牌概率分布与令牌频率分布之间的交叉熵,显著提升了检测性能,尤其在中文文本的检测中表现优异。研究结果表明,该方法在现有技术上取得了显著进展,推动了对大型语言模型的科学评估和伦理应用。
Sep, 2024
本研究解决了大规模语言模型(LLMs)在成员推断攻击中的隐私风险,现有方法依赖多次训练计算开销大的影子模型,导致评估风险的成本高昂。本文提出了一种低成本的成员推断攻击方法,利用小型分位回归模型的集成,以有效判定文档是否属于训练集。实验结果显示,该方法在计算预算仅为现有方法6%的情况下,取得了与最先进方法相当或更好的精度,并在多种模型和数据集上展现了强大的有效性。
Sep, 2024
本研究解决了大型语言模型预训练数据透明度不足所带来的科学评估与伦理部署挑战。提出了一种基于发散的校准方法,通过计算令牌概率分布与令牌频率分布之间的交叉熵来提高检测性能。实验结果表明,该方法在英文基准和中文基准PatentMIA上显著优于现有检测方法。
Sep, 2024