深度ReLU网络和深度算子网络的神经规模定律:理论研究
本文回顾了最近关于层级神经网络结构的研究成果,探讨了深度卷积神经网络优于浅层神经网络在函数近似问题中的表现条件。本文提出了一个新的对于相对维度的定义,该定义可以被深层网络而非浅层网络使用以显著降低近似和学习所需的复杂度。同时,本文还宣布了关于当前神经网络中使用的非平滑激活函数- ReLU函数以及高斯网络的新结果。
Aug, 2016
本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等4个机器学习领域的数据,研究训练集大小、模型规模与推广误差之间的关系,结果表明推广误差遵循幂定律缩放,且模型改进只改变误差而不影响幂指数。此外,模型大小随数据规模的增大缩小,这些研究对于深度学习的研究、实践和系统设计具有重要意义。
Dec, 2017
神经网络具有普适逼近能力,使用一层隐藏层即可精确逼近任何非线性连续算子,但需要 DeepONet 结构通过降低泛化误差以实现其潜力应用。
Oct, 2019
通过将神经网络定位为具有固定点表示所需解的算子,我们以数值分析为基础,建立了一个以迭代方法为基础的理论框架,以理论证明为基础,我们演示了流行的架构,如扩散模型和AlphaFold,本质上使用了迭代算子学习,经验评估表明通过网络算子进行迭代可以提高性能。我们还介绍了一个迭代图神经网络PIGN,进一步展示了迭代的好处。我们的工作旨在通过融合数值分析的洞察力,从而提升深度学习的理解,潜在地指导设计具有更清晰理论基础和改进性能的未来网络。
Oct, 2023
这篇文章介绍了关于神经网络的统计理论,从三个角度进行了综述:非参数回归或分类中关于神经网络过度风险的结果,神经网络的训练动力学以及生成模型中的最新理论进展。
Jan, 2024
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论;假设最优参数符合高斯先验,数据协方差矩阵具有幂律谱指数为a>1,我们证明了测试误差的可还原部分为Θ(M^{-(a-1)} + N^{-(a-1)/a});方差错误随M的增加而增加,但由于随机梯度下降的隐式正则化作用,被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致,并经过数值模拟验证。
Jun, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024
本研究解决了变压器模型扩展规律缺乏严格理解的问题。通过建立新的统计估计和数学近似理论,提出了在低维流形数据上变压器泛化误差与训练数据规模和网络规模之间存在幂律关系,该关系依赖于数据内在维度。研究表明,数据的内在维度对变压器扩展规律具有重要影响,并且与实证观察结果高度一致。
Nov, 2024