单智能体强化学习的尺度定律

Jan, 2023

Scaling laws for single-agent reinforcement learning

Jacob Hilton, Jie Tang, John Schulman

TL;DR研究表明，生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化，但在强化学习中，性能目标的变化不一定平稳，因而提出了内生表现作为性能度量标准，通过系列模型中达到所需返回的最小计算量来定义，研究表明内生表现同样随模型大小和环境交互呈幂律变化，与生成建模类似，最优模型大小也随训练计算能力呈幂律变化。

Abstract

Recent work has shown that, in generative modeling, cross-entropy loss improves smoothly with model size and training compute, following a

generative modeling cross-entropy loss reinforcement learning intrinsic performance model size

发现论文，激发创造

自回归生成建模的规模定律

通过研究生成式图像建模、视频建模、多模式图像与文本模型和数学问题求解等四个领域，我们发现交叉熵损失的实证缩放定律，指出自回归变压器在性能上平滑提高，其最佳模型大小还受到计算预算影响，同时也寻找到了特定领域的进一步扩展规律。这些结果加强了缩放定律对于神经网络性能以及下游任务的重要影响。

Oct, 2020

声学模型的缩放率

本文研究机器学习中的自回归生成模型和声学模型，探讨其性能和规模之间的比例关系，通过预测各项损失量，建立规模预测和性能选择间的联系，提出了几个调整性能的超参数的方案

Jun, 2021

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

NetHack 中模仿学习的规模定律

探究模型和数据规模的逐渐扩大对模仿学习的影响，以 NetHack 游戏为基础，发现模仿学习在具有挑战性的领域中的扩展行为，以及在 NetHack 游戏中扩大当前方法以获得更强大的智能体的可行性。

Jul, 2023

学习曲线理论

本研究论文重点研究了神经网络中数据尺寸 (n) 对于训练或测试误差的普适性缩放规律，并通过研发最简单的模型来分析学习曲线，探究数据分布是否对于这种规律产生影响。

Feb, 2021

传递的尺度定律

研究表明，使用预训练模型进行迁移学习可以在未标注数据上改善性能，通过研究参数、数据和计算等方面，得到了一系列可预测的缩放规律。

Feb, 2021

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

基于深度学习的图像重建的比例律

本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能，发现在训练样本数较少时，模型表现随训练样本数增加而迅速提升，但在一定程度上达到饱和，并提出理论解释。

Sep, 2022