深度信息传播

Nov, 2016

Deep Information Propagation

Samuel S. Schoenholz, Justin Gilmer, Surya Ganguli, Jascha Sohl-Dickstein

TL;DR通过平均场理论研究未经训练的神经网络的行为，并显示相应的深度尺度限制了信号在这些随机网络中传播的最大深度；研究表明，dropout 破坏了有序到混沌临界点，因此强烈地限制了随机网络的最大可训练深度；我们开发了后向传播的平均场理论，证明了有序和混沌相位分别对应于梯度消失和梯度爆炸的区域。

Abstract

We study the behavior of untrained neural networks whose weights and biases are randomly distributed using mean field theory. We show the existence of →

neural networks mean field theory depth scales dropout backpropagation

发现论文，激发创造

通过瞬态混沌实现深度神经网络的指数表现能力

本文利用黎曼几何和高维混沌的平均场理论相结合，研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变，并证明了浅层网络无法高效地计算这种深度随机函数族。此外，我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。

Jun, 2016

深度神经网络中的临界性与均匀性

本文研究了沿着混乱边缘初始化的深度前馈网络，发现其具有指数级的培训能力。同时探讨了 tanh 激活函数的饱和效果，发现这个效果会影响到混乱边界的训练效率，并提出了最大熵的相空间平衡特性。研究表明，在混乱边缘初始化是实现最优训练能力的必要条件，但不足以满足这个目标。

Apr, 2023

均场剩余网络：朝向混沌的边缘

本研究旨在证明，通过添加跳跃连接，残差网络将采用基于解析方法确定的次指数正向和反向动态，从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证，Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。

Dec, 2017

量子化深度神经网络的平均场理论：量化深度平衡

利用平均场技术对具有量化激活的网络进行评估，推导了最大化信号传播的初始值设定方案，进一步得到了一个 NP 难度问题的解决办法，从而在神经网络中优化了量化和深度之间的权衡关系。

Jun, 2019

某些深度神经网络的平均场极限

本文提出了一种适用于深度神经网络的缩放极限的解决方案，其权重可由被描述为平均场模型的理想粒子近似表示，该问题的关键在于我们的 McKean-Vlasov 问题存在唯一解。

Jun, 2019

批归一化的平均场理论

我们研究了全连接前馈神经网络的批标准化问题，并提出了一种均值场理论。研究表明，批标准化会导致梯度爆炸，而这种爆炸无法通过调节初始权重方差或调整非线性激活函数来消除。然而，我们可以通过将网络调整到线性区域来减少梯度爆炸，从而提高网络的可训练性。此外，我们还研究了批标准化网络的学习动态。

Feb, 2019

当浅层模型强时，是否更深层模型更好？

该论文研究了深层神经网络在梯度下降最优化过程中利用深度的表达能力，证明了具有分形结构的分布可以被深层网络有效地表达，而浅层网络无法表达。论文还探讨了粗细篮子之间的平衡如何影响深度神经网络的优化过程，并推断了学习深度神经网络是否成功取决于分布是否可以被浅层网络很好地逼近的结论。

Mar, 2019

用随机游走初始化训练超深度前馈网络

该研究论文探讨了在机器学习中训练深度网络的困难之处，并提出了一种方法解决梯度消失问题，即适当增加各层的宽度以缓解问题。

Dec, 2014

深度随机神经网络中均值场和有限宽度之间的连接 —— 基于批量归一化的研究

本文研究了多层感知机中深度与均场预测集中性之间的关系，并提出通过批归一化缓解均场预测中的层间误差放大现象，从而建立了无限深度神经网络的均场预测的集中性界限。

May, 2022

两层神经网络的平均场理论：无维界限和核极限

本文探讨利用随机梯度下降学习两层神经网络，将神经网络权重的演化近似为概率分布在 R^D 空间中的演化，从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性，扩展了此结果到无界激活函数的情况，将此结果应用到噪声随机梯度下降过程中，并展示了如何通过平均场分析特殊限制条件下的核岭回归。

Feb, 2019