- 利用双时间尺度区间展示神经网络的收敛
研究浅层神经网络的训练动态,证明了在内层步长远小于外层步长的两个时间尺度范围内,梯度流收敛于非凸优化问题的全局最优解,这依然成立即使神经元数量不是渐近大,与神经切向核或平均场逼近等最近流行的方法有所区别,并通过实验证明,随机梯度下降符合我们 - 对角线性网络中的鞍点动态
本文探讨了超参数初始化趋近于零时,激活集与损失函数极小值之间的关系,证明了激活集的约束下,梯度流跳跃到另一个鞍点的动态可作为增量学习的过程,并采用类似于 Lasso 路径计算的 Homotopy 算法解决了实现上的难点。
- 使用浅层神经网络学习单指数模型
本文研究了一种自然的浅层神经网络,通过梯度流学习单指数模型,表明这种方法的优化效果良好,并且具有与半参数方法相当的泛化能力。
- 从群体损失的梯度流到随机梯度下降学习
本文通过分析 Gradient Flow 在目标函数收敛时的性质,提供了 SGD 收敛的一般条件,研究了 Lyapunov potentials 与目标函数几何性质的关联,并给出了 SGD 收敛的保证,适用于一些复杂问题。
- ICLR拟均匀神经网络的非对称最大余量偏差
研究探讨了梯度流在指数损失的条件下,拟半齐次神经网络的最大边际偏差,发现梯度流隐式地偏爱一部分参数,但可能会降低拟半齐次模型的鲁棒性,并分析了模型简化的机制,最后揭示了神经崩溃的普适性现象。
- 深度线性网络在浅层网络无法时可能出现良性过拟合
本研究针对使用梯度流训练的深度线性网络的过度风险进行了边界限制,发现与最小 l2 范数插值的已知边界非常接近或者相等,深度并不能提高算法隐藏噪声的能力,并通过模拟数据验证了该边界的典型行为。
- ECCV消除参考线艺术着色中的梯度冲突
本研究提出了一种名为 Stop-Gradient Attention (SGA) 的训练策略来解决基于参考线描图的着色任务中注意力机制的训练不稳定性问题,并在多个基准测试上实现了显著的改进。
- ICLR神经网络中带全局收敛保证的特征学习
该研究通过梯度流优化模型,研究宽神经网络中的特征学习和训练损失收敛问题,证明了一定条件下训练损失会以线性速率收敛于零,并展示了该模型的学习特性和推广能力。
- ICLR训练不变量和低秩现象:超越线性网络
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性 - 具有单神经元层的深度线性网络的全局收敛分析
本文介绍了深度线性网络的非局部收敛分析,特别是考虑具有一个神经元层的深度线性网络,其收敛点在梯度流下产生的任意起点轨迹上,包括收敛到鞍点或原点之一的路径,本文通过扩展 Eftekhari 的工作,以可证明地标识稳定秩集和全局最小化收敛集来实 - MM基于梯度流的深度学习模型压缩中的显著性探究
本文提出一种基于梯度流的模型修剪方法,综合考虑 BN 和 ReLU 层后的卷积操作对整个特征映射的影响,采用 BN 层中的一阶泰勒多项式标识神经元的重要程度,该方法在图像分类和去噪任务上取得了良好的性能表现。
- 深度神经网络的连续与离散优化
研究了梯度下降法与梯度流动在深度学习中的关系,发现深度神经网络上的梯度流动轨迹存在良好曲率,能够很好地近似梯度下降法。理论和实验结果表明,梯度下降法具有较高的计算效率和全局最小解收敛保证。
- 过度参数张量分解中通缩过程的理解
本文研究了过度参数化张量分解问题上的梯度流训练动态。通过证明,在正交可分解的张量情况下,略微修改的梯度流会遵循张量缩减过程,并恢复所有张量分量。我们的证明表明,对于正交张量,梯度流动态的工作方式类似于矩阵情况下的贪心低秩学习,这是了解超参数 - 深度学习:统计观点
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时 - 保持梯度流动:使用梯度流动研究稀疏网络优化
本文提出了一种在优化、正则化和架构设计等方面更好地拟合稀疏网络的方法,使用 Same Capacity Sparse vs Dense Comparison 和 Effective Gradient Flow 这两种指标,得出优化器、激活函 - ICLR解决梯度下降隐式偏差的矩阵分解方法:贪婪的低秩学习
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。
- AAAI稀疏神经网络中的梯度流与中奖彩票方法
本文研究稀疏神经网络的训练,并分析了从随机初始化开始训练稀疏神经网络的不良表现以及 Lottery Tickets 和 Dynamic Sparse Training 的例外情况。作者发现稀疏神经网络在初始化时梯度流较差,使用稀疏感知的初始 - ICLR线性神经网络训练中隐性偏差的统一视角
研究了线性神经网络训练中渐进流(即用无穷小步长的梯度下降法)的隐含偏差;提出了神经网络的张量形式,包括全连接、对角线和卷积网络等特例,并研究了称为线性张量网络的公式的线性版本。通过这个公式,我们可以将网络的收敛方向表征为由网络定义的张量的奇 - 双层神经网络中二阶动态的全局收敛性
通过 Lyapunov 法证明了在 momentum 策略下的 fully connected neural networks 的 heavy ball method 对应的二阶梯度下降算法在平均场极限下收敛于全局最优解。
- 深度学习中的方向收敛和对齐
本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛,并阐述了相应的研究内容,包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。