本研究证明,当深度趋近于无限时,共享同一权重矩阵的 ResNet 类型深度神经网络上的随机梯度下降收敛于神经 ODE 的随机梯度下降,并且相应的值 / 损失函数收敛。我们的结果为考虑神经 ODE 作为 ResNet 的深度极限提供了理论基础。我们的证明基于相关 Fokker-Planck 方程的衰减估计。
Jun, 2019
深度残差网络与神经常微分方程之间的离散化联系被建立,证明了在特定条件下网络收敛至全局最小值。
Sep, 2023
本文研究基于连续时间参数的 ODE 类模型及其泛化界限,并探讨其与深度残差网络的类比关系,说明权重矩阵之间的差异对于神经网络的泛化能力有何影响。
May, 2023
本文介绍了一种基于偏微分方程框架的深度残差神经网络和相关学习问题的方法,并研究了前向问题的稳定性和最优性,同时探究了神经网络、PDE 理论、变分分析、优化控制和深度学习之间的算法和理论联系。
May, 2019
通过数值实验,我们研究了 Residual 网络的权重性质和与深度有关的规模,在某些网络结构下得到了另一种常微分方程的极限,这表明了深度 ResNets 的极限模型不完全适用于神经正则微分方程。
May, 2021
本文通过对深度残差网络进行连续极限的解释,提出了一种新的深度残差网络连续极限,推导出了多层神经网络在平均场规则下的首个全局收敛结果,并提出了几种基于新连续模型的训练方案,其中之一的训练程序在基准数据集上表现出很强的实证性能。
Mar, 2020
通过确定性的积分微分方程建模,研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为,证明任何隐藏层数目下的极限行为,并在合适的激活函数和行为的假设下,表明极限神经网络可恢复全局最小值(目标函数无损失)
Mar, 2019
本文研究了基于改进方程的方法,表明残差网络及其变体可以被视为弱逼近随机微分方程。从损失景观的角度提供了关于正则化效应的新视角,并为设计更可靠和高效的随机训练策略提供了启示。我们提出了一种利用伯努利丢弃来进行实验的新方法,从而验证了我们的理论发现。
Dec, 2018
提出一种新型深度神经网络模型 —— 连续深度模型,其采用了一个神经网络来参数化隐藏状态的导数,并利用黑箱微分方程求解器计算网络输出,使其具有内存成本不变、能够为每个输入自适应地选择评估策略并能显式进行精度 / 速度权衡等特点。研究者进一步证明了通过此模型可以构造出连续正则化流模型,能够通过最大似然进行训练,而不需要对数据维度进行分区或排序,并展示了如何在较大模型内部向任何 ODE 求解器进行可扩展地反向传播,从而实现 ODE 的端到端训练。
Jun, 2018
本文提出了一种适用于深度神经网络的缩放极限的解决方案,其权重可由被描述为平均场模型的理想粒子近似表示,该问题的关键在于我们的 McKean-Vlasov 问题存在唯一解。