深度随机神经网络中均值场和有限宽度之间的连接 —— 基于批量归一化的研究
我们研究了全连接前馈神经网络的批标准化问题,并提出了一种均值场理论。研究表明,批标准化会导致梯度爆炸,而这种爆炸无法通过调节初始权重方差或调整非线性激活函数来消除。然而,我们可以通过将网络调整到线性区域来减少梯度爆炸,从而提高网络的可训练性。此外,我们还研究了批标准化网络的学习动态。
Feb, 2019
本研究发展了多层神经网络的数学严格框架,探究其在平均场条件下的学习轨迹,并证明了一些神经网络的性质,包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。
Jan, 2020
本文提出了一种适用于深度神经网络的缩放极限的解决方案,其权重可由被描述为平均场模型的理想粒子近似表示,该问题的关键在于我们的 McKean-Vlasov 问题存在唯一解。
Jun, 2019
本文在均场条件下证明了三层无正则化前馈神经网络的全局收敛性,首先建立起三层网络的均场极限,并证明了在合适的收敛模式假设和正则性假设下具有全局收敛保证。
May, 2021
本文探讨利用随机梯度下降学习两层神经网络,将神经网络权重的演化近似为概率分布在 R^D 空间中的演化,从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性,扩展了此结果到无界激活函数的情况,将此结果应用到噪声随机梯度下降过程中,并展示了如何通过平均场分析特殊限制条件下的核岭回归。
Feb, 2019
在无穷深和宽神经网络的极限状态下,我们对被称为 scaled ResNet 的模型进行研究,以推导出其在 mean-field regime 下的泛化能力的界限,并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性,从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。
Mar, 2024
在这项研究中,我们设计了一种带有线性激活函数和批归一化的多层感知机模型,通过 Weingarten 微积分方法从理论上证明了其正向信号传播特性的精确表征,并证明了在线性独立的输入样本情况下渐近地保持梯度有界的特性。同时,我们还提出了一种激活函数塑形方案,能够在某些非线性激活函数下实现类似的特性。
Oct, 2023
本文通过对深度残差网络进行连续极限的解释,提出了一种新的深度残差网络连续极限,推导出了多层神经网络在平均场规则下的首个全局收敛结果,并提出了几种基于新连续模型的训练方案,其中之一的训练程序在基准数据集上表现出很强的实证性能。
Mar, 2020
通过平均场理论研究未经训练的神经网络的行为,并显示相应的深度尺度限制了信号在这些随机网络中传播的最大深度;研究表明,dropout 破坏了有序到混沌临界点,因此强烈地限制了随机网络的最大可训练深度;我们开发了后向传播的平均场理论,证明了有序和混沌相位分别对应于梯度消失和梯度爆炸的区域。
Nov, 2016
该研究提出了一种新的均场框架用于超参数化深度神经网络的分析,利用概率分布和在连续极限下的功能来表示 DNN,并通过适当的重新参数化将其训练目标重新表述为凸优化问题,构建了一种称为神经特征流的非线性动力学来捕捉超参数化 DNN 的演化,证明了在均场区域中超参数化神经网络训练具有全局收敛性的首个全局收敛证明。
Jul, 2020