缩放定律无法按比例缩放

Jul, 2023

Scaling Laws Do Not Scale

Fernando Diaz, Michael Madaio

TL;DR随着数据集规模的增大，对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加，而每个社群可能持有不同的价值观，这对于刻度律模型的性能评估可能存在风险。

Abstract

Recent work has proposed a power law relationship, referred to as ``scaling laws,'' between the performance of artificial intelligence (AI) models and aspects of those models' design (e.g., dataset size). In othe

scaling laws artificial intelligence models dataset size performance distinct communities

发现论文，激发创造

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

机器学习中个体数据点价值的尺度定律

我们通过研究个体数据点的比例行为来揭示数据点的价值随数据集规模的变化而逐渐减少的情况，并提供了支持我们的比例定律的学习理论，此定律在不同的模型类别中得到验证。我们进一步提出了最大似然估算器和分摊估算器，以有效地学习每个数据点的个别比例行为，我们利用这些估算器揭示了影响不同数据点比例行为的因素，并将这些个体比例法则应用于数据估值和数据子集选择。

May, 2024

尾巴的故事：模型崩塌作为比例定律的变化

AI 模型规模扩大时，神经缩放定律成为预测大型模型在增加容量和原始（人工或自然）训练数据大小时改进的关键工具。然而，流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架，发现了一系列衰变现象，包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。

Feb, 2024

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

声学模型的缩放率

本文研究机器学习中的自回归生成模型和声学模型，探讨其性能和规模之间的比例关系，通过预测各项损失量，建立规模预测和性能选择间的联系，提出了几个调整性能的超参数的方案

Jun, 2021

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

图上的神经标度法则

通过研究深度图模型的扩展性，本文从模型和数据两个角度揭示了神经扩展定律，并提出了针对图数据的模型和数据扩展定律，为构建大规模图模型提供了重要见解。

Feb, 2024

反比缩放：大不一定好

通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模型的数据和目标需要更加谨慎的思考。

Jun, 2023