协调 Kaplan 和 Chinchilla 比例定律
Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现 Kaplan 定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,我们解释了差异;在纠正这些因素后,我们与 Hoffmann 等人(即 “Chinchilla”)的定律取得了很好的一致性;与 Hoffmann 等人的假设相反,我们发现仔细的学习率衰减对于他们的定律的有效性并不重要;作为次要结果,我们推导出了最优学习率和批次大小的扩展定律,并发现在较低的批次大小下调整 AdamW 的 β2 参数至关重要。
Jun, 2024
Hoffmann et al.(2022)提出了三种估计计算最优缩放定律的方法,我们试图复制他们的第三个估计过程,其中涉及将参数损失函数拟合到从图表中重建的数据。我们发现所报道的估计与他们的前两种估计方法不一致,无法对提取的数据进行拟合,并报告了不可信的窄置信区间 - 这种窄度的区间需要超过 60 万个实验,而他们可能只进行了不到 500 个。相比之下,我们使用第三种方法重新推导缩放定律的结果与 Hoffmann 等人描述的前两种估计过程的发现是一致的。
Apr, 2024
基于大型语言模型(LLM)的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而,这些公式,包括流行的 DeepMind Chinchilla 扩展规律,忽略了推理成本。我们修改了 Chinchilla 扩展规律,以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析,发现预计具有相当大的推理需求(约 10 亿个请求)的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。
Dec, 2023
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于 Gopher,GPT-3,Jurassic-1 和 Megatron-Turing NLG。
Mar, 2022
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
基于新的缩放定律,我们推测模型性能主要取决于计算经费的使用,而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律,我们预测(a)训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率,(b)假设可用的网络数据集已耗尽,扩大模型大小可能是进一步改善模型性能的唯一途径。
Apr, 2024
本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力,包括 (1) 最小可能测试损失;(2) 实现特定损失所需的最小训练步骤和处理的标记数;(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小;以及 (4) 完整的测试损失轨迹和任意批大小。
Mar, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020