关于特征叠加的缩放规律影响
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
Jun, 2024
我们探讨了参数稀疏性对在大规模数据集上训练的 Transformer(即 “基础模型”)的扩展行为的影响,涉及视觉和语言领域。我们首次确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律,并通过 ViT/JFT-4B 和 T5/C4 在模型和数据规模上进行了实证验证;这些结果使我们能够表征 “最佳稀疏度”,即对于给定的有效模型大小和训练预算,可以在其中获得最佳性能的稀疏度水平。我们发现,在非零参数数量固定时,最佳稀疏度随着用于训练的数据量增加而增加。我们还将研究扩展到了不同的稀疏结构(如硬件友好的 n:m 模式)和策略(如从预训练的稠密模型开始)。我们的发现揭示了在各种参数和计算设置中权重稀疏性的能力和局限性,为利用稀疏性提高计算效率提供了理论理解和实际意义。
Sep, 2023
通过研究最近邻分类器的缩放定律,我们发现缩放定律可以有两个阶段:在第一阶段中,泛化误差多项式依赖于数据维度并迅速减小;而在第二阶段中,误差指数级依赖于数据维度并减小较慢,这凸显了数据分布在决定泛化误差中的复杂性。当数据分布良好时,我们的研究表明最近邻分类器可以在数据维度上多项式依赖,而非指数依赖,从而实现泛化误差的降低。
Aug, 2023
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
证明随机特征学习的一般性定理,表明具有非线性激活函数的随机特征模型在训练和泛化误差方面渐近等效于匹配协方差矩阵的线性高斯模型,其方法基于经典的 Lindeberg 方法,证明的主要内容包括针对与训练过程相关的优化问题的 leave-one-out 分析以及针对弱相关随机变量的中心极限定理,通过 Stein 方法获得。
Sep, 2020
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力,这被称为发生现象。本文提出了一个基于技能的框架,其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型,并得到了与培训时间、数据量、模型规模和最佳计算(C)有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较,其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数,能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。
Apr, 2024
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现 Kaplan 定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,我们解释了差异;在纠正这些因素后,我们与 Hoffmann 等人(即 “Chinchilla”)的定律取得了很好的一致性;与 Hoffmann 等人的假设相反,我们发现仔细的学习率衰减对于他们的定律的有效性并不重要;作为次要结果,我们推导出了最优学习率和批次大小的扩展定律,并发现在较低的批次大小下调整 AdamW 的 β2 参数至关重要。
Jun, 2024