均场剩余网络：朝向混沌的边缘

NIPSDec, 2017

Mean Field Residual Networks: On the Edge of Chaos

Greg Yang, Samuel S. Schoenholz

TL;DR本研究旨在证明，通过添加跳跃连接，残差网络将采用基于解析方法确定的次指数正向和反向动态，从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证，Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。

Abstract

We study randomly initialized residual networks using mean field theory and the theory of difference equations. Classical feedforward neural networks, such as those with tanh activations, exhibit exponential behavior on the average when propagating inputs forward or gradients backward.

residual networks skip connections stability chaos initialization

发现论文，激发创造

批归一化的平均场理论

我们研究了全连接前馈神经网络的批标准化问题，并提出了一种均值场理论。研究表明，批标准化会导致梯度爆炸，而这种爆炸无法通过调节初始权重方差或调整非线性激活函数来消除。然而，我们可以通过将网络调整到线性区域来减少梯度爆炸，从而提高网络的可训练性。此外，我们还研究了批标准化网络的学习动态。

Feb, 2019

通过瞬态混沌实现深度神经网络的指数表现能力

本文利用黎曼几何和高维混沌的平均场理论相结合，研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变，并证明了浅层网络无法高效地计算这种深度随机函数族。此外，我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。

Jun, 2016

如何开始训练：初始化和架构的影响

本文针对深度 ReLU 神经网络早期训练的两种常见失效模式进行研究和识别，为每种模式提供了严格的证明以及如何避免。我们证明了正确的权重初始化以及架构可以使得深层神经网络成功训练，并在实验中证实了我们的理论结果的有效性。

Mar, 2018

哪些神经网络架构会导致梯度爆炸和梯度消失？

我们对一个使用 ReLU 激活的随机初始化全连接网络 N 的梯度统计行为进行了严格分析，发现其输出输入 Jacobian 的平方条目的经验方差呈现简单依赖架构的常数 beta 的指数形式，该常数由隐藏层宽度的倒数之和组成，当 beta 很大时，N 在初始化时计算的梯度变化异常剧烈。我们的方法补充了随机网络的平均场理论分析，从这个视角出发，我们对处于混沌边缘的梯度统计的有限宽度修正进行了严格计算。

Jan, 2018

深度残差网络及其扩展的平均场分析：通过深度超参数化实现可证优化

本文通过对深度残差网络进行连续极限的解释，提出了一种新的深度残差网络连续极限，推导出了多层神经网络在平均场规则下的首个全局收敛结果，并提出了几种基于新连续模型的训练方案，其中之一的训练程序在基准数据集上表现出很强的实证性能。

Mar, 2020

深度信息传播

通过平均场理论研究未经训练的神经网络的行为，并显示相应的深度尺度限制了信号在这些随机网络中传播的最大深度；研究表明，dropout 破坏了有序到混沌临界点，因此强烈地限制了随机网络的最大可训练深度；我们开发了后向传播的平均场理论，证明了有序和混沌相位分别对应于梯度消失和梯度爆炸的区域。

Nov, 2016

残余网络的随机训练：微分方程视角

本文研究了基于改进方程的方法，表明残差网络及其变体可以被视为弱逼近随机微分方程。从损失景观的角度提供了关于正则化效应的新视角，并为设计更可靠和高效的随机训练策略提供了启示。我们提出了一种利用伯努利丢弃来进行实验的新方法，从而验证了我们的理论发现。

Dec, 2018

深度缩放 ResNets 在均场极限下的泛化性

在无穷深和宽神经网络的极限状态下，我们对被称为 scaled ResNet 的模型进行研究，以推导出其在 mean-field regime 下的泛化能力的界限，并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性，从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。

Mar, 2024

深度神经网络中的临界性与均匀性

本文研究了沿着混乱边缘初始化的深度前馈网络，发现其具有指数级的培训能力。同时探讨了 tanh 激活函数的饱和效果，发现这个效果会影响到混乱边界的训练效率，并提出了最大熵的相空间平衡特性。研究表明，在混乱边缘初始化是实现最优训练能力的必要条件，但不足以满足这个目标。

Apr, 2023

深度神经网络初始化和激活函数的选择

这篇论文研究了深度神经网络的权重初始化和激活函数对其训练性能的影响，证明了边缘混沌状态具有优异的表现，同时提出了一类叫做 Swish 的激活函数，可以优化信息传递。

May, 2018