本文通过随机分析弱收敛方法证明单层神经网络模型在隐藏单元数量和随机梯度下降迭代次数均较大时存在中心极限定理;结果表明网络在平均场极限周围的波动符合高斯分布,并且满足一些随机偏微分方程。
Aug, 2018
本文通过严密推导,针对贝叶斯两层神经网络在无穷宽度限制下采用变分推断方法进行回归任务训练,证明了它们的中心极限定理(CLT)。该研究比较了不同网络训练方案的波动行为,发现最小化变分推断方法在计算复杂度上具有更高效的优势。
Jun, 2024
通过确定性的积分微分方程建模,研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为,证明任何隐藏层数目下的极限行为,并在合适的激活函数和行为的假设下,表明极限神经网络可恢复全局最小值(目标函数无损失)
Mar, 2019
本文提出了一种适用于深度神经网络的缩放极限的解决方案,其权重可由被描述为平均场模型的理想粒子近似表示,该问题的关键在于我们的 McKean-Vlasov 问题存在唯一解。
Jun, 2019
研究具有随机高斯权重和偏差的全连接神经网络的分布,其中隐藏层宽度与大常数 $n$ 成比例,并获得在有限但大的 $n$ 和任意固定网络深度下有效的正常近似的定量界限。
Jul, 2023
本文探讨利用随机梯度下降学习两层神经网络,将神经网络权重的演化近似为概率分布在 R^D 空间中的演化,从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性,扩展了此结果到无界激活函数的情况,将此结果应用到噪声随机梯度下降过程中,并展示了如何通过平均场分析特殊限制条件下的核岭回归。
Feb, 2019
在无穷深和宽神经网络的极限状态下,我们对被称为 scaled ResNet 的模型进行研究,以推导出其在 mean-field regime 下的泛化能力的界限,并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性,从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。
Mar, 2024
本研究发展了多层神经网络的数学严格框架,探究其在平均场条件下的学习轨迹,并证明了一些神经网络的性质,包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。
Jan, 2020
通过使用动力学均场理论的方法,我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限,称之为随机梯度流,并探讨了算法控制参数对其在损失函数空间中的导航的影响。
Jun, 2020
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的 SGD 动态。