神经缩放定律失效

ICLROct, 2022

Broken Neural Scaling Laws

Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger

TL;DR研究了神经网络在多种任务中的扩展行为及其泛化预测模型，提出一种称为 BNSL 的平滑断电力法函数形式，相较于其他神经网络扩展行为函数形式，其推广的预测更加准确、准确地模拟和推广其他函数形式无法表达的特定情况下的不单调转折点和明显拐点扩展行为。

Abstract

We present a smoothly broken power law functional form (referred to by us as a Broken Neural Scaling Law (BNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the

neural networks scaling behavior functional form extrapolation deep learning

发现论文，激发创造

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

图上的神经标度法则

通过研究深度图模型的扩展性，本文从模型和数据两个角度揭示了神经扩展定律，并提出了针对图数据的模型和数据扩展定律，为构建大规模图模型提供了重要见解。

Feb, 2024

大 N 场论中的神经比例定律：超越无岭极限的可解模型

基于大 N 场论方法，我们解决了一个由 Maloney，Roberts 和 Sully 提出的模型，该模型为研究神经网络的缩放定律提供了一个简化的环境。我们的解决方案将这个模型的结果推广到了一般非零的岭参数值，这对于规范模型的行为是至关重要的。除了获得新的和更精确的缩放定律，我们还揭示了在图表级别上的对偶变换，该变换解释了模型和训练数据集大小之间的对称性。相同的对偶变换也支持最近设计神经网络来模拟量子场论的努力。

May, 2024

通过中奖彩票集成的神经缩放定律

神经缩放定律是指模型性能随规模增加而改善的现象。本文通过逼近理论分析了神经缩放定律，并预测 MSE 损失随着参数数量的减小而衰减，其中 N 是模型参数数量，d 是固有输入维度。虽然他们的理论对某些情况（例如 ReLU 网络）有效，但令人惊讶的是，我们发现简单的一维问题 y=x^2 表现出与他们预测（α=4）不同的缩放定律（α=1）。我们研究了神经网络并发现新的缩放定律源于 “大乐透” 模型：平均而言，更宽的网络具有更多 “大乐透号码”，而这些号码被集成以减少输出的方差。我们通过对单个神经网络的机械解释和统计研究来支持集成机制。将 N^{-1} 的缩放定律归因于大乐透的 “中心极限定理”。最后，我们讨论了它对大型语言模型和学习的统计物理类型理论的潜在影响。

Oct, 2023

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

神经缩放定律解释

该研究提出了一种理论，解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系，并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。

Feb, 2021

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

神经网络规模定律的信息论基础

通过建立信息论基础，我们研究了神经缩放定律，并揭示了在无限宽度的两层神经网络生成的数据中，数据和模型大小的最佳关系大致呈线性，进一步验证了大规模的实证研究结果。

Jun, 2024