使用桌游进行尺度律研究

Apr, 2021

Scaling Scaling Laws with Board Games

Andy L. Jones

TL;DR本文通过使用 AlphaZero 和 Hex 的一系列实验，展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推，并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。

Abstract

The largest experiments in machine learning now require resources far beyond the budget of all but a few institutions. Fortunately, it has recently been shown that the results of these huge experiments can often be extrapolated from the results of a sequence of far smaller, cheaper exp

machine learning resource allocation alphazero hex performance predictability

发现论文，激发创造

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

重新思考战略环境下的学习尺度定律

通过研究机器学习模型的扩展部署，本论文考察了模型和策略交互对规模定律的影响，发现战略交互可能破坏了常规的规模定律，同时提出了一种新的游戏模型选择范式。

Feb, 2024

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习，利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约 150 亿个数据点，并达到了 2895 的 Lichess 快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了 AlphaZero 的策略和值网络（没有 MCTS）以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

深度学习的扩展是可预测的，实证的

本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等 4 个机器学习领域的数据，研究训练集大小、模型规模与推广误差之间的关系，结果表明推广误差遵循幂定律缩放，且模型改进只改变误差而不影响幂指数。此外，模型大小随数据规模的增大缩小，这些研究对于深度学习的研究、实践和系统设计具有重要意义。

Dec, 2017

NetHack 中模仿学习的规模定律

探究模型和数据规模的逐渐扩大对模仿学习的影响，以 NetHack 游戏为基础，发现模仿学习在具有挑战性的领域中的扩展行为，以及在 NetHack 游戏中扩大当前方法以获得更强大的智能体的可行性。

Jul, 2023

单智能体强化学习的尺度定律

研究表明，生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化，但在强化学习中，性能目标的变化不一定平稳，因而提出了内生表现作为性能度量标准，通过系列模型中达到所需返回的最小计算量来定义，研究表明内生表现同样随模型大小和环境交互呈幂律变化，与生成建模类似，最优模型大小也随训练计算能力呈幂律变化。

Jan, 2023

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

缩放定律无法按比例缩放

随着数据集规模的增大，对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加，而每个社群可能持有不同的价值观，这对于刻度律模型的性能评估可能存在风险。

Jul, 2023

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

语言模型基准测试的可预测性如何？

通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现，我们发现平均基准性能相当可预测，尽管在特定任务中的性能预测具有挑战性，因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。

Jan, 2024