本文探讨利用随机梯度下降学习两层神经网络,将神经网络权重的演化近似为概率分布在 R^D 空间中的演化,从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性,扩展了此结果到无界激活函数的情况,将此结果应用到噪声随机梯度下降过程中,并展示了如何通过平均场分析特殊限制条件下的核岭回归。
Feb, 2019
通过确定性的积分微分方程建模,研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为,证明任何隐藏层数目下的极限行为,并在合适的激活函数和行为的假设下,表明极限神经网络可恢复全局最小值(目标函数无损失)
Mar, 2019
本研究发展了多层神经网络的数学严格框架,探究其在平均场条件下的学习轨迹,并证明了一些神经网络的性质,包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。
Jan, 2020
本文通过随机分析弱收敛方法证明单层神经网络模型在隐藏单元数量和随机梯度下降迭代次数均较大时存在中心极限定理;结果表明网络在平均场极限周围的波动符合高斯分布,并且满足一些随机偏微分方程。
Aug, 2018
本文发现随着神经元数量的增加,经过适当的缩放和随机梯度下降动力学,多层神经网络的行为变得独立于神经元数量,发展了一个形式体系来捕捉这种多神经元限制行为,相关实验证实了这种独立性的存在。
本文在均场条件下证明了三层无正则化前馈神经网络的全局收敛性,首先建立起三层网络的均场极限,并证明了在合适的收敛模式假设和正则性假设下具有全局收敛保证。
May, 2021
在无穷深和宽神经网络的极限状态下,我们对被称为 scaled ResNet 的模型进行研究,以推导出其在 mean-field regime 下的泛化能力的界限,并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性,从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。
Mar, 2024
研究神经网络在梯度下降中的表现,证明了 2 范数的上限可以帮助在训练过程中控制一般化误差,数值实验结果与理论结果相符合。
Aug, 2020
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。
Apr, 2018
本文通过对深度残差网络进行连续极限的解释,提出了一种新的深度残差网络连续极限,推导出了多层神经网络在平均场规则下的首个全局收敛结果,并提出了几种基于新连续模型的训练方案,其中之一的训练程序在基准数据集上表现出很强的实证性能。
Mar, 2020