这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022
大语言模型(LLMs)在各个领域展示了前所未有的性能,但其特殊行为之一 —— 记忆化 —— 仍缺乏解释,本研究通过多个角度全面探讨记忆化现象及其动态,并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系,以及不同记忆化得分下句子的嵌入分布和解码动态,揭示了当模型开始生成记忆化或非记忆化句子时的边界效应,最后通过训练 Transformer 模型预测不同模型的记忆化,证明了通过上下文预测记忆化的可行性。
May, 2024
大型语言模型在记忆方面的挑战和机会,包括隐私、安全、版权等问题,并提出目前的研究方向。
Oct, 2023
通过对 Pythia 模型套件的记忆行为进行度量和分析,发现中间检查点是模型记忆行为的更好预测因素,同时提供了有关模型和数据记忆得分分布的新颖发现
Apr, 2023
本文提出一个高效的元学习框架,将终身学习的三个普遍原则相结合,以有效地训练同时避免灾难性遗忘和负迁移,并达到与多任务学习相当的性能。
Oct, 2020
研究了大型语言模型的训练和记忆过程,在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响,证明更大的语言模型更快地记忆训练数据,更容易在训练过程中避免过度拟合。同时,分析了不同词性的记忆动态,发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。
May, 2022
对预训练语言模型进行了多种实验,发现预训练模型有助于保持记忆,而非预训练的神经网络具有遗忘的问题,并且知识相关性和多样性会显着影响记忆形成。这些结论有助于了解预训练模型的能力,同时也为语言模型的新学习和推断算法的设计和评估提供了启示。
May, 2023
以分类方式解析记忆化过程,并构建预测模型,发现不同因素根据分类方式对记忆化概率产生不同影响。
Jun, 2024
本研究通过研究先进的预训练语言模型在嘈杂和低资源环境下的一般化和记忆能力,发现这些模型的训练对标签噪声几乎没有影响,但并不适用于低资源任务,而基于原型网络的扩展则能提高识别低资源命名实体时的性能。
Apr, 2021
连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。
Jan, 2024