重新审视语言和视觉中的神经缩放定律

Sep, 2022

重新审视语言和视觉中的神经缩放定律

Revisiting Neural Scaling Laws in Language and Vision

Ibrahim Alabdulmohsin, Behnam Neyshabur, Xiaohua Zhai

TL;DR本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Abstract

The remarkable progress in deep learning in recent years is largely driven by improvements in scale, where bigger models are trained on larger datasets for longer schedules. To predict the benefit of scale empirically, we argue for a more rigorous methodology based on the extrapolation

发现论文，激发创造

深度学习的扩展是可预测的，实证的

本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等4个机器学习领域的数据，研究训练集大小、模型规模与推广误差之间的关系，结果表明推广误差遵循幂定律缩放，且模型改进只改变误差而不影响幂指数。此外，模型大小随数据规模的增大缩小，这些研究对于深度学习的研究、实践和系统设计具有重要意义。

Dec, 2017

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

神经缩放定律解释

该研究提出了一种理论，解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系，并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。

Feb, 2021

神经机器翻译的规模定律

通过本文所提及的实证研究，我们揭示了神经机器翻译中，编码器-解码器Transformer模型的扩展特性。具体而言，本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系，并在多种扩展方法及语言下展现了估计的准确性。我们同时观察到编码器与解码器扩展的效应不同，基于此提供了编码器/解码器容量的最优化分配建议。我们还发现模型的扩展表现受到训练/测试集组成偏差的极大影响，称之为“构造偏差”，这种偏差对减少交叉熵损失十分重要。最后，我们调查了交叉熵损失与生成的翻译质量之间的关系，并发现在测试数据自不同语言的数据翻译转换中，模型大小的改变对模型的推理质量有着不同的影响。我们在本研究中使用的所有模型的生成文本都允许被公开。

Sep, 2021

可再现的对比语言-图像学习的比例定律

本研究探索了对比语言-图像预训练（CLIP）的缩放定律，使用了公共数据集和开放源代码来研究缩放规律，并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共CLIP模型，我们发现在多个下游任务中，有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。

Dec, 2022

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立104个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

大型语言模型的时间尺度定律

最近，大型语言模型广泛应用于各种任务，对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律，并研究了语言模型在时间维度上的损失。研究发现，尽管存在损失不平衡，语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象，并提供了对预训练语言模型更深入的理解。

Apr, 2024

统一的神经网络缩放法则与规模时间等价性

本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架，展示模型规模、训练时间和数据量三者如何相互影响，形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践，还为评估和优化大型网络性能提供了预测方法，具有重要的实际应用价值。

Sep, 2024

《缩放规律估计指南》

本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集，提出了一套最佳实践，发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性，且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。

Oct, 2024

解锁1位神经网络扩展背后的理论

本研究解决了1位大语言模型（LLM）性能与参数数量之间关系的理论缺口，首次严谨建立了1位模型的扩展定律。研究表明，尽管权重限制为$\{-1, +1\}$，1位模型在增加网络宽度时能够收敛至极小损失，同时与全精度模型的输出差异保持微不足道。此理论突破为未来1位神经网络在精度方面的标准化提供了有力的支持。

Nov, 2024