深度学习中的方向收敛和对齐
该论文研究了使用小的初始值训练深层均匀神经网络时产生的梯度流动力学。该研究表明,在训练的早期阶段,神经网络的权重保持较小的范数,并且在神经关联函数的 Karush-Kuhn-Tucker (KKT) 点附近大致收敛于相同方向。此外,在平方损失和神经网络权重的可分离性假设下,梯度流动力学在损失函数的某些鞍点附近也显示出类似的方向收敛。
Mar, 2024
本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐 —— 一种隐式正则化方法,详细说明了在套用于严格递减损失函数时(梯度下降的递减步长也是如此):(i) 风险趋近于 0;(ii)标准化的第 i 个权重矩阵渐进等于其秩 - 1 逼近;(iii)这些秩 - 1 矩阵在层之间对齐,即 |vi+1^Tv_i| -> 1。特别地,在逻辑损失(二元交叉熵)的情况下,还可以说更多的结论:网络激发的线性函数 —— 其权重矩阵的乘积 —— 趋向于与最大边际解同方向。这种性质在之前的工作中已被证明,但仅基于对梯度下降的假设,这里的对齐现象可以证明这些假设。
Oct, 2018
研究了线性神经网络训练中渐进流(即用无穷小步长的梯度下降法)的隐含偏差;提出了神经网络的张量形式,包括全连接、对角线和卷积网络等特例,并研究了称为线性张量网络的公式的线性版本。通过这个公式,我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。
Oct, 2020
本文研究了 Leaky ReLU 神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解,同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。
Oct, 2021
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好的分类误差。
Dec, 2017
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019