关于联想记忆的缩放定律
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此,我们设计了一个能量函数,类似于现代连续 Hopfield 网络中的函数,对注意力机制提供了有见地的解释。利用最大化 - 最小化技术,我们构建了一个全局能量函数,捕捉了 Transformer 的层次结构。在特定条件下,我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果,以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。
May, 2024
研究关联记忆模块的训练动态,通过对数据分布和嵌入之间相关性的性质进行粒子系统的研究,揭示过参数化条件下 ' 分类边界 ' 呈对数增长、标记频率不平衡和相关嵌入导致的振荡瞬态阶段、过大步长引起的良性损失峰值以及欠参数化条件下交叉熵损失的副优化记忆方案等现象,并对小型 Transformer 模型进行了验证。
Feb, 2024
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律,并提出使用对比对数似然作为评估指标,并通过大量实验证明,在我们设置下,稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外,文章还通过流行的数据增强方法来检验缩放效果,以评估注释质量的影响,并应用缩放定律来找到在预算限制下的最佳资源分配策略,这些研究结果对于理解稠密检索模型的缩放效应并为未来的研究提供有意义的指导具有重要意义。
Mar, 2024
通过分析大型语言模型(LLM)事实知识和 LLM 记忆不同类型事实的行为的扩展规律,我们发现 LLMs 的事实知识容量与模型规模和训练周期呈线性和负指数关系,认为 LLMs 用于记忆全部公共事实在普通预训练设置下几乎不切实际。与此同时,我们发现 LLMs 能够推广未见事实知识,并且其扩展规律类似于普通预训练。我们还分析了 LLMs 事实记忆的兼容性和偏好,结果表明 LLMs 在以统一方式记忆冗余事实时遇到困难,并且仅当相关事实具有相同的方向和结构时,LLM 才能兼容地记忆它们。此外,LLM 更关注记忆更频繁和更困难的事实,并且后续的事实可以覆盖先前事实的记忆,这严重阻碍了低频事实的记忆。我们发现了 LLMs 事实知识学习的容量和特点,为 LLMs 事实知识增强提供了方向。
Jun, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明,基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为,对于广泛范围内的架构细节(纵横比和头数)几乎没有影响。我们汇集了大量的异构时间序列数据进行训练,并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系,涵盖了五个数量级。
May, 2024
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力,包括 (1) 最小可能测试损失;(2) 实现特定损失所需的最小训练步骤和处理的标记数;(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小;以及 (4) 完整的测试损失轨迹和任意批大小。
Mar, 2024