通过动态等向性在深度学习中复苏 Sigmoid 函数：理论与实践

NIPSNov, 2017

通过动态等向性在深度学习中复苏 Sigmoid 函数：理论与实践

Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice

Jeffrey Pennington, Samuel S. Schoenholz, Surya Ganguli

TL;DR本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布，研究了深度、权重初始化和非线性性之间的关系，发现深度为 ReLU 网络不能实现动态等距，而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距，且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。

Abstract

It is well known that the initialization of weights in deep neural networks can have a dramatic impact on learning speed. For example, ensuring the mean squared singular value of a network's input-output Jacobian is $O(1)$ is essential for avoiding the exponential vanishing or explosio

deep learning neural networks weight initialization jacobian singular values dynamical isometry

发现论文，激发创造

残差网络通过通用的激活函数实现动态等比特性

本文研究了残差神经网络中动态同构的可达性，借助自由概率和随机矩阵理论，我们导出了初始化时输入输出雅可比矩阵谱密度的通用公式，在大型网络中我们得到了一个依赖于单个参数的奇异值谱，并分析了各种常见激活函数的信号传播，我们通过随机矩阵和 CIFAR-10 分类问题的数值模拟证实了结果，并研究了这种普适性行为对学习过程的影响，最后得出结论：在初始化时选择相同水平的动态同构可以消除激活函数的影响，促进学习。

Sep, 2018

尺度归一化

研究表明，保持等距性 /isometry 可以有效加速深度神经网络的训练，包括确定性和标度归一化方法。结果表明在学习开始时保持等距性很重要，保持等距性可以加速学习。

Apr, 2016

深度网络中谱普适性的出现

利用自由概率理论，对深度网络输入 - 输出 Jacobian 谱的结构进行研究，探讨非线性、权值、偏置分布、深度等超参数对 Jacobian 谱的影响。我们发现，不同的非线性函数都符合一些新的普适极限谱分布，即使深度接近无穷，这些分布也可以牢固地集中于 1 附近，从而可以为深度网络的设计提供重要的指导。

Feb, 2018

卷积循环神经网络在其临界点附近的动力学

在输入较小且卷积核是幺正矩阵的条件下，我们考察了具有平滑 sigmoid 激活函数的单层卷积递归网络的动力学特性，其输出通过诸如立方根等压缩非线性函数与输入相关，且弛豫时间和信号传播的长度尺度都以幂律形式对输入敏感，当输入趋近于 0 时两者均发散。基本动力学机制是网络中的输入产生持续的活动，并进而控制附加输入或信号在空间上的传播抑或时间上的衰减。我们提供了当单个振荡强迫网络或背景值引发持续活动时的稳态的解析解，并导出了时间衰减和空间传播长度与背景值的关系。

May, 2024

动态等比性：神经网络剪枝中的遗漏要素

通过动态同构的视角，本文从裁剪作为初始化角度研究了神经网络裁剪，发现直接使用裁剪后的权重作为初始化不利于微调，回答了为什么更大的 fine-tuning 学习速率可以显著提高最终性能的疑问，并揭示了裁剪价值的谜团。

May, 2021

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出 sigmoid 形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

CNN 的动态同构性及均场理论：如何训练一万层 Vanilla 卷积神经网络

本研究展示了使用适当的初始化方案可以简单地训练具有一万层或更多层的普通卷积神经网络，并演示了这些随机正交卷积核的生成算法以及它们实现极深网络的高效训练能力。

Jun, 2018

旋转优化器：简单而稳健的深度神经网络训练

本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

May, 2023

深度网络中对称性的理解

本研究针对深度网络权重空间中的对称性问题，探讨了使用基于单位范数的约束来改善权重空间对称性问题的方法，并通过 MNIST 数据集上的实验证明该方法优于批量归一化方法且不会影响权重更新的计算性能。

Nov, 2015

浅层一元 ReLU 网络的梯度动力学

本文介绍了在一个维度输入下，解决最小二乘插值的超参数化浅层 ReLU 网络的梯度动态的理论和实证研究，阐述了这种网络的梯度动态通过网络函数的非冗余参数化来确定，同时还研究了两种学习模式：核函数和自适应函数，以及它们所对应的性质。

Jun, 2019