深度神经网络学习动态的层级条件分析

ECCVFeb, 2020

深度神经网络学习动态的层级条件分析

Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of DNNs

Lei Huang, Jie Qin, Li Liu, Fan Zhu, Ling Shao

TL;DR通过层次化的条件分析，探索了深度神经网络的优化量表，结论表明 BN 可稳定训练，同时通过在最后一个线性层之前增加 BN 层，能够改善深度残差网络的表现。

Abstract

conditioning analysis uncovers the landscape of an optimization objective by exploring the spectrum of its curvature matrix. This has been well explored theoretically for linear models. We extend this analysis to

conditioning analysis optimization objective deep neural networks batch normalization performance

发现论文，激发创造

深度学习中标准化方法的新诠释

本文提出了一项引理来解释多种神经网络中的归一化方法，从而能够在统一的框架下解释归一化的概念。我们的结论是，这些归一化方法能够让权重的范数增大，可能会造成攻击性漏洞的风险，同时，证明这些归一化方法可以帮助稳定网络训练。

Jun, 2020

通过条件加速操作 DNN 测试的效率

通过使用所学深度神经网络模型的表示进行筛选测试数据，借助交叉熵算法进行高维分布采样，可以有效地更加精确地测试神经网络模型的可靠性，需要的标签数据量大大减少。

Jun, 2019

深度线性神经网络学习非线性动力学的精确解

通过对深度线性神经网络的学习动态进行系统分析，我们发现这些网络表现出类似于非线性神经网络的非线性学习现象，包括长时间的平原，然后快速转换到更低误差的解决方案，以及从贪婪的无监督预训练初始条件下的更快收敛等。同时，我们发现在权重的某些特殊初始条件下，非监督预训练可以找到这些初始条件，同时表现出深度独立的学习时间，而随机高斯初始化则做不到。

Dec, 2013

使用标准化层训练的 ReLU 神经网络的优化理论

本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响，证明了在引入 Weight Normalization 后，具有 ReLU 激活函数的两层神经网络可以加速收敛。

Jun, 2020

学习的动态性：一种随机矩阵方法

本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态，并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解，为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。

May, 2018

ReLU 网络中批归一化的解析：等价的凸优化模型与隐式正则化

本文通过凸优化的视角分析 Batch Normalization，提出了一个基于凸对偶的解析框架，可以精确地描述用 Batch Normalization 训练的带有权重衰减的 ReLU 网络，并证明在高维和过参数化情况下，理论上可以获得一些简单的解析的最优层权重和可训练的凸约束优化问题，并发现梯度下降给标准的非凸 BN 网络提供了算法偏差效应，通过我们的方法可以将这种隐式正则化显性编码到凸目标中，实验结果表明该方法可以模拟和显著提高标准 BN 网络的性能。

Mar, 2021

层归一化

本文提出一种基于层归一化的深度神经网络训练新方法，能够有效稳定循环神经网络中的隐藏状态动态，其训练时间较之前的技术有大幅度降低。

Jul, 2016

三层神经网络动力学：初始凝聚

通过理论分析，我们揭示了三层神经网络训练中凝聚现象的机制，并从二层神经网络训练中进行了区分。我们还建立了有效动力学的爆炸特性，并给出了凝聚现象发生的充分条件，并通过实验证实了这些发现。此外，我们探索了凝聚与深度矩阵分解中观察到的低秩偏差之间的关联。

Feb, 2024

学习网络的权重动态

使用局部稳定性分析的数学框架，我们研究了前馈神经网络学习动力学的深层理解，推导了三层神经网络在学习回归任务时的切线算子方程，结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中，调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化，我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量，可以预测最终的训练损失。

Apr, 2024

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019