大型语言模型中的紧急和可预测记忆
这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022
该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响,重现了重复次数对记忆序列遗忘概率的对数标度关系,并发现即使没有后续接触,经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上,这对数据隐私具有挑战性。为此,我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。
Jun, 2024
大语言模型(LLMs)在各个领域展示了前所未有的性能,但其特殊行为之一 —— 记忆化 —— 仍缺乏解释,本研究通过多个角度全面探讨记忆化现象及其动态,并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系,以及不同记忆化得分下句子的嵌入分布和解码动态,揭示了当模型开始生成记忆化或非记忆化句子时的边界效应,最后通过训练 Transformer 模型预测不同模型的记忆化,证明了通过上下文预测记忆化的可行性。
May, 2024
研究了大型语言模型的训练和记忆过程,在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响,证明更大的语言模型更快地记忆训练数据,更容易在训练过程中避免过度拟合。同时,分析了不同词性的记忆动态,发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。
May, 2022
大型语言模型通过精心设计的提示可以提取出其训练数据,这也带来了隐私风险。为了评估潜在的隐私风险,需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆,并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显示,语言模型在实体级别上具有较强的记忆能力,并能够在部分泄露情况下重新生成训练数据。这些发现要求语言模型的训练者在模型记忆方面更加谨慎,采用记忆减轻技术以防止隐私侵犯。
Aug, 2023
本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法,进行神经语言模型的训练数据筛选,以减少其对训练数据中的敏感信息的记忆,并探究其训练样本中的对抗性记忆,从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。
Dec, 2021
本文研究了可提取性记忆:对一个机器学习模型进行查询,对其训练数据进行高效提取的训练数据,而不需要事先了解训练数据集。我们表明,对于开源语言模型如 Pythia 或 GPT-Neo,半开放模型如 LLaMA 或 Falcon,以及闭源模型如 ChatGPT,对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型;为了攻击已对齐的 ChatGPT,我们开发了一种新的分歧攻击,使模型偏离其聊天机器人风格的生成,并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示,实践中的攻击可以恢复比以前认为的数据更多,并揭示当前的对齐技术不能消除记忆。
Nov, 2023
通过 Bloom 过滤器与 ALL-CAPITAL text 跨越数据记忆的问题,阐述了训练数据的记忆问题与风险,并讨论了针对神经语言模型中数据记忆的潜在替代定义和本质难题。
Oct, 2022