某些深度神经网络的平均场极限

Jun, 2019

A mean-field limit for certain deep neural networks

Dyego Araújo, Roberto I. Oliveira, Daniel Yukimura

TL;DR本文提出了一种适用于深度神经网络的缩放极限的解决方案，其权重可由被描述为平均场模型的理想粒子近似表示，该问题的关键在于我们的 McKean-Vlasov 问题存在唯一解。

Abstract

Understanding deep neural networks (DNNs) is a key challenge in the theory of machine learning, with potential applications to the many fields where DNNs have been successfully used. This article presents a scaling limi

deep neural networks stochastic gradient descent scaling limit mean-field model ideal particles

发现论文，激发创造

两层神经网络的平均场理论：无维界限和核极限

本文探讨利用随机梯度下降学习两层神经网络，将神经网络权重的演化近似为概率分布在 R^D 空间中的演化，从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性，扩展了此结果到无界激活函数的情况，将此结果应用到噪声随机梯度下降过程中，并展示了如何通过平均场分析特殊限制条件下的核岭回归。

Feb, 2019

深度神经网络的平均场分析

通过确定性的积分微分方程建模，研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为，证明任何隐藏层数目下的极限行为，并在合适的激活函数和行为的假设下，表明极限神经网络可恢复全局最小值（目标函数无损失）

Mar, 2019

多层神经网络均值场极限的严格框架

本研究发展了多层神经网络的数学严格框架，探究其在平均场条件下的学习轨迹，并证明了一些神经网络的性质，包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。

Jan, 2020

神经网络的平均场分析：中心极限定理

本文通过随机分析弱收敛方法证明单层神经网络模型在隐藏单元数量和随机梯度下降迭代次数均较大时存在中心极限定理；结果表明网络在平均场极限周围的波动符合高斯分布，并且满足一些随机偏微分方程。

Aug, 2018

多层神经网络学习动力学的平均场极限

本文发现随着神经元数量的增加，经过适当的缩放和随机梯度下降动力学，多层神经网络的行为变得独立于神经元数量，发展了一个形式体系来捕捉这种多神经元限制行为，相关实验证实了这种独立性的存在。

Feb, 2019

三层神经网络在均场极限下的全局收敛

本文在均场条件下证明了三层无正则化前馈神经网络的全局收敛性，首先建立起三层网络的均场极限，并证明了在合适的收敛模式假设和正则性假设下具有全局收敛保证。

May, 2021

深度缩放 ResNets 在均场极限下的泛化性

在无穷深和宽神经网络的极限状态下，我们对被称为 scaled ResNet 的模型进行研究，以推导出其在 mean-field regime 下的泛化能力的界限，并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性，从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。

Mar, 2024

浅层神经网络的动态中心极限定理

研究神经网络在梯度下降中的表现，证明了 2 范数的上限可以帮助在训练过程中控制一般化误差，数值实验结果与理论结果相符合。

Aug, 2020

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018

深度残差网络及其扩展的平均场分析：通过深度超参数化实现可证优化

本文通过对深度残差网络进行连续极限的解释，提出了一种新的深度残差网络连续极限，推导出了多层神经网络在平均场规则下的首个全局收敛结果，并提出了几种基于新连续模型的训练方案，其中之一的训练程序在基准数据集上表现出很强的实证性能。

Mar, 2020