使用局部稳定性分析的数学框架,我们研究了前馈神经网络学习动力学的深层理解,推导了三层神经网络在学习回归任务时的切线算子方程,结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中,调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化,我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量,可以预测最终的训练损失。
Apr, 2024
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
研究深度神经网络的学习动态,主要关注于二元分类问题。我们证明了网络学习的各种性质,并且在非线性架构下,分类误差也呈现出 sigmoid 形状,证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响,并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后,我们提出了梯度饥饿现象并进行了研究。
Sep, 2018
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
这篇文章介绍了关于神经网络的统计理论,从三个角度进行了综述:非参数回归或分类中关于神经网络过度风险的结果,神经网络的训练动力学以及生成模型中的最新理论进展。
Jan, 2024
深度学习中优化的关键问题是通过学习优化器来加速优化过程,但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响,研究并对比手动设计和学习优化器的优缺点,提出了关键见解。
Dec, 2023
此篇论文利用随机矩阵理论来理解和描述神经网络的损失曲面及其谱,并应用于现代神经网络的训练方法,为随机矩阵理论在现代神经网络的理论研究中提供了重要的贡献。
Jun, 2023
研究了两层神经网络中过参数化对学生 - 教师框架的影响,发现只有当学生的隐藏层数量指数级大于输入维度时,才能达到完美的泛化。同时计算了其渐进的泛化误差。
Mar, 2023
通过分析网络轨迹和学习过程中的动力学特性,研究了浅层神经网络在简单分类任务中的演化过程,发现不同学习速率下的动力学和轨道稳定性,这一发现与神经网络和动力学系统理论的常见智慧相对照,为动力系统理论、网络理论和机器学习之间的相互交流提供了贡献。
本文发现随着神经元数量的增加,经过适当的缩放和随机梯度下降动力学,多层神经网络的行为变得独立于神经元数量,发展了一个形式体系来捕捉这种多神经元限制行为,相关实验证实了这种独立性的存在。
Feb, 2019