深度学习中的方向收敛和对齐
本文研究深度神经网络优化问题中的高维非凸性质,通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响,通过证明半修正单层网络的渐进连通性,以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示,虽然吸引子很小,但这些水平面在所有的学习阶段都保持连通。
Nov, 2016
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好的分类误差。
Dec, 2017
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
针对深度神经网络的全局最小化问题,证明对于采用金字塔形拓扑结构,且只有第一层宽度为N的深度神经网络,可以找到和宽度多项式增长时相似的最小值。并且将该结果应用于LeCun的初始化方法,得到了单大宽度层的超参数要求为N ^ 2的结论。
Feb, 2020
本文研究了Leaky ReLU神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的“max-margin”解,同时还对梯度下降在训练初期的“简单度偏向”现象进行了理论解释。
Oct, 2021
研究探讨了梯度流在指数损失的条件下,拟半齐次神经网络的最大边际偏差,发现梯度流隐式地偏爱一部分参数,但可能会降低拟半齐次模型的鲁棒性,并分析了模型简化的机制,最后揭示了神经崩溃的普适性现象。
Oct, 2022
该论文研究了使用小的初始值训练深层均匀神经网络时产生的梯度流动力学。该研究表明,在训练的早期阶段,神经网络的权重保持较小的范数,并且在神经关联函数的Karush-Kuhn-Tucker (KKT)点附近大致收敛于相同方向。此外,在平方损失和神经网络权重的可分离性假设下,梯度流动力学在损失函数的某些鞍点附近也显示出类似的方向收敛。
Mar, 2024
该研究探讨深度神经网络训练中的梯度流收敛问题,并提出了一种基于条件最优传输距离的训练模型,通过梯度流方程的良定性和多项式-Lojasiewicz分析证明了在适当的初始化条件下,梯度流可以收敛于全局极小值。
Mar, 2024