本文提出了一项引理来解释多种神经网络中的归一化方法,从而能够在统一的框架下解释归一化的概念。我们的结论是,这些归一化方法能够让权重的范数增大,可能会造成攻击性漏洞的风险,同时,证明这些归一化方法可以帮助稳定网络训练。
Jun, 2020
通过使用所学深度神经网络模型的表示进行筛选测试数据,借助交叉熵算法进行高维分布采样,可以有效地更加精确地测试神经网络模型的可靠性,需要的标签数据量大大减少。
Jun, 2019
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响,证明了在引入 Weight Normalization 后,具有 ReLU 激活函数的两层神经网络可以加速收敛。
本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态,并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解,为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。
May, 2018
本文通过凸优化的视角分析 Batch Normalization,提出了一个基于凸对偶的解析框架,可以精确地描述用 Batch Normalization 训练的带有权重衰减的 ReLU 网络,并证明在高维和过参数化情况下,理论上可以获得一些简单的解析的最优层权重和可训练的凸约束优化问题,并发现梯度下降给标准的非凸 BN 网络提供了算法偏差效应,通过我们的方法可以将这种隐式正则化显性编码到凸目标中,实验结果表明该方法可以模拟和显著提高标准 BN 网络的性能。
Mar, 2021
本文提出一种基于层归一化的深度神经网络训练新方法,能够有效稳定循环神经网络中的隐藏状态动态,其训练时间较之前的技术有大幅度降低。
Jul, 2016
通过理论分析,我们揭示了三层神经网络训练中凝聚现象的机制,并从二层神经网络训练中进行了区分。我们还建立了有效动力学的爆炸特性,并给出了凝聚现象发生的充分条件,并通过实验证实了这些发现。此外,我们探索了凝聚与深度矩阵分解中观察到的低秩偏差之间的关联。
Feb, 2024
使用局部稳定性分析的数学框架,我们研究了前馈神经网络学习动力学的深层理解,推导了三层神经网络在学习回归任务时的切线算子方程,结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中,调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化,我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量,可以预测最终的训练损失。
Apr, 2024
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019