大型语言模型在我们日常生活中的嵌入中引起了关于它们所学习的数据集的问题,包括潜在的偏见或误导信息以及人类生成文本的版权和合理使用问题。我们引入了实际应用于大型语言模型的文件级成员推断任务,并展示了我们的方法在准确确定文档级成员方面的优越性,增加了即将改变我们生活的技术的透明度。
Oct, 2023
通过Min-K% Prob方法,我们研究了大语言模型的预训练数据检测问题,引入了WIKIMIA动态基准和一个简单的假设,达到了7.4%的改进。我们将该方法应用于版权图书检测和受污染下游示例检测,发现它是一种始终有效的解决方案。
通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法,本研究提供了关于LLMs隐私保护和遗忘的新视角,并在大量NLP任务上进行了全面的性能评估。
May, 2024
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的Pile数据集的训练集和测试集,无任何错误的正例。
Jun, 2024
通过介绍一种新的遗忘框架Unlearning from Logit Difference(ULD),该方法通过计算目标模型与助理模型之间的逻辑差异来实现忘记目标文档和保留其他知识的目标,从而解决了LLM遗忘方法中的两个挑战问题(退化输出和灾难性遗忘),大幅提高了训练效率。
通过条件语言建模开展一个新的成员推理攻击,称为ReCaLL,以检测大型语言模型的预训练数据,并展示其在WikiMIA数据集上能够达到最先进的性能。
该研究解决了大型语言模型在隐私、安全和版权方面的问题,提出了一种自适应的预训练数据检测方法,降低了对模型逐字记忆能力的依赖。研究发现,该方法通过识别输入中的“惊讶标记”有效提升了检测性能,在各类实验中相比现有方法表现出一致的改进,最高提升达29.5%。
Jul, 2024
本研究解决了大型语言模型(LLMs)记忆训练数据的程度及其对输出可靠性和隐私的影响。作者提出了一种实验框架,通过反复向LLMs展示随机字符串,从而分析模型行为,发现不同模型具有一致的记忆动态,并识别了影响记忆能力的因素及当地前缀和全局上下文的作用。这些发现对LLMs的研究和应用具有重要的影响。
本研究解决了大型语言模型(LLMs)在隐私风险和版权问题审核上的缺口,提出了一种新颖的基于指令的成员推断攻击方法MIA-Tuner,通过指导LLMs自身作为更精确的预训练数据检测器,提升检测信心。此外,设计了两项基于指令的安全措施,以缓解隐私风险。实验结果表明,MIA-Tuner将MIA的AUC从0.7显著提高至0.9。
Aug, 2024
本研究聚焦在大型语言模型(LLMs)的不良记忆问题,揭示其潜在的伦理和法律风险。通过系统化知识的方式,分析了记忆现象的多个维度,并提出性能与隐私平衡的方法以缓解这些风险,强调了该研究对确保模型安全性的重要性。
Oct, 2024