深度声明网络中梯度近似性的理解
本文研究在白化数据上,通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值,并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时,可保证线性收敛。此外,在输出维度为 1 的情况下,即标量回归,这些条件是满足的,并且在随机初始化方案下具有恒定的概率达到全局最优解。
Oct, 2018
本研究提出了约束引导梯度下降 (CGGD) 框架,使得域知识可以注入到神经网络的训练过程中,其中域知识被假定为一组硬不等式约束的连词,相比于其他神经符号方法,该方法使得模型收敛并满足数据集上的任何不等式约束,同时不需要事先将约束转换为某个特定项添加到学习目标中。经实验证明,与先前的工作相比,CGGD 使得训练不再依赖网络的初始化,并提高了所有数据的约束可满足性。
Jun, 2022
本文基于深度平衡模型,分析其具有非凸目标函数和非线性权重矩阵的回归与分类问题的梯度动态,证明了在没有对模型宽度的任何假设的情况下会以线性速率收敛到全局最优解,同时关注了隐式层的隐式偏差和其与浅层显式层的动态的关系。
Feb, 2021
本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设 Coherent Gradients,并支持该假设的启发式论证和简单实验证明。同时,该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。
Feb, 2020
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好的分类误差。
Dec, 2017
通过对变分不等式框架的分析,我们发现在 GAN 的基本变体 Wasserstein Linear-Quadratic GAN 中,直接梯度下降方向会导致不收敛,而特定的正交方向可以实现收敛,我们称之为 “通过卷曲”,这是命名来源于其数学推导及感性:识别游戏的旋转轴并向 “卷曲” 更小的方向移动空间。
Aug, 2018
我们分析了深度学习网络中梯度下降算法的几何方面。具体而言,我们证明了对于欠参数的 ReLU 深度学习网络,Chen-Munoz Ewald 2023 论文中构建性地获得的全局最小成本所对应的权重和偏差通常无法通过梯度下降流逼近。因此,我们得出结论,Chen-Munoz Ewald 2023 论文中介绍的方法与梯度下降方法是不相同的。
Nov, 2023