大型语言模型的事实记忆尺度定律

Jun, 2024

大型语言模型的事实记忆尺度定律

Scaling Laws for Fact Memorization of Large Language Models

Xingyu Lu, Xiaonan Li, Qinyuan Cheng, Kai Ding, Xuanjing Huang...

TL;DR通过分析大型语言模型（LLM）事实知识和 LLM 记忆不同类型事实的行为的扩展规律，我们发现 LLMs 的事实知识容量与模型规模和训练周期呈线性和负指数关系，认为 LLMs 用于记忆全部公共事实在普通预训练设置下几乎不切实际。与此同时，我们发现 LLMs 能够推广未见事实知识，并且其扩展规律类似于普通预训练。我们还分析了 LLMs 事实记忆的兼容性和偏好，结果表明 LLMs 在以统一方式记忆冗余事实时遇到困难，并且仅当相关事实具有相同的方向和结构时，LLM 才能兼容地记忆它们。此外，LLM 更关注记忆更频繁和更困难的事实，并且后续的事实可以覆盖先前事实的记忆，这严重阻碍了低频事实的记忆。我们发现了 LLMs 事实知识学习的容量和特点，为 LLMs 事实知识增强提供了方向。

Abstract

fact knowledge memorization is crucial for large language models (LLM) to generate factual and reliable responses. However, the behaviors

large language models fact knowledge memorization scaling laws llms' behaviors

发现论文，激发创造

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

语言模型在规模上是否能充当知识库？

大型语言模型在理解和生成复杂查询方面表现出了卓越的能力，但它们在存储、回忆和推理大规模结构化知识方面的有效性仍有待研究，本研究发现虽然大型语言模型有望作为大规模知识库灵活地检索和回答问题，但需要增强它们的推理能力以充分发挥潜力。

Feb, 2024

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

大型语言模型在预训练期间如何获取事实知识？

通过研究大型语言模型在预训练过程中获得事实知识的机制，发现预训练数据量的增加并不显著提高模型获得和保持事实知识的能力，训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系，重复训练数据会导致遗忘加速，而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率，但此提升会受到后续遗忘的影响。根据这一解释，我们对大型语言模型的表现提供了合理的解释，如对尾部知识的糟糕表现以及去重预训练语料库的好处。

Jun, 2024

大型语言模型记忆机制的多角度分析

大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一 —— 记忆化 —— 仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练 Transformer 模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

May, 2024

语言模型的物理学：第 3.3 部分，知识容量的规模律

通过多个受控数据集，我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外，我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。

Apr, 2024

大型语言模型培训动态分析：防止过度拟合的记忆训练

研究了大型语言模型的训练和记忆过程，在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响，证明更大的语言模型更快地记忆训练数据，更容易在训练过程中避免过度拟合。同时，分析了不同词性的记忆动态，发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。

May, 2022

关于联想记忆的缩放定律

通过学习高维矩阵和内层变换器语言模型，研究关联记忆机制、标度定律和统计效率的优化算法，通过数值实验验证理论结果和存储记忆联想的细粒度可视化。

Oct, 2023

大型语言模型的时间尺度定律

最近，大型语言模型广泛应用于各种任务，对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律，并研究了语言模型在时间维度上的损失。研究发现，尽管存在损失不平衡，语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象，并提供了对预训练语言模型更深入的理解。

Apr, 2024