深度信息传播
本文利用黎曼几何和高维混沌的平均场理论相结合,研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变,并证明了浅层网络无法高效地计算这种深度随机函数族。此外,我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。
Jun, 2016
本文研究了沿着混乱边缘初始化的深度前馈网络,发现其具有指数级的培训能力。同时探讨了 tanh 激活函数的饱和效果,发现这个效果会影响到混乱边界的训练效率,并提出了最大熵的相空间平衡特性。研究表明,在混乱边缘初始化是实现最优训练能力的必要条件,但不足以满足这个目标。
Apr, 2023
本研究旨在证明,通过添加跳跃连接,残差网络将采用基于解析方法确定的次指数正向和反向动态,从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证,Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。
Dec, 2017
利用平均场技术对具有量化激活的网络进行评估,推导了最大化信号传播的初始值设定方案,进一步得到了一个 NP 难度问题的解决办法,从而在神经网络中优化了量化和深度之间的权衡关系。
Jun, 2019
本文提出了一种适用于深度神经网络的缩放极限的解决方案,其权重可由被描述为平均场模型的理想粒子近似表示,该问题的关键在于我们的 McKean-Vlasov 问题存在唯一解。
Jun, 2019
我们研究了全连接前馈神经网络的批标准化问题,并提出了一种均值场理论。研究表明,批标准化会导致梯度爆炸,而这种爆炸无法通过调节初始权重方差或调整非线性激活函数来消除。然而,我们可以通过将网络调整到线性区域来减少梯度爆炸,从而提高网络的可训练性。此外,我们还研究了批标准化网络的学习动态。
Feb, 2019
该论文研究了深层神经网络在梯度下降最优化过程中利用深度的表达能力,证明了具有分形结构的分布可以被深层网络有效地表达,而浅层网络无法表达。论文还探讨了粗细篮子之间的平衡如何影响深度神经网络的优化过程,并推断了学习深度神经网络是否成功取决于分布是否可以被浅层网络很好地逼近的结论。
Mar, 2019
本文研究了多层感知机中深度与均场预测集中性之间的关系,并提出通过批归一化缓解均场预测中的层间误差放大现象,从而建立了无限深度神经网络的均场预测的集中性界限。
May, 2022
本文探讨利用随机梯度下降学习两层神经网络,将神经网络权重的演化近似为概率分布在 R^D 空间中的演化,从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性,扩展了此结果到无界激活函数的情况,将此结果应用到噪声随机梯度下降过程中,并展示了如何通过平均场分析特殊限制条件下的核岭回归。
Feb, 2019