通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响,我们证明了过度参数化会引入伪平衡点,阻碍梯度下降算法的收敛。
May, 2023
本文分析了过参数化模型剪枝中的双重下降现象,提出了在某些情况下,训练大型模型再进行剪枝比仅使用已知信息更好的理论证明,同时也发现了重新训练的好处以及在线性和随机特征模型中已经存在这些现象,这进一步促进了高维分析工具的发展。
Dec, 2020
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
通过研究过度参数化的深度网络的学习动力学,我们揭示了各种体系结构的权重矩阵展现出低维结构,我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络,实验证明这种压缩技术能够加速训练过程超过两倍,而不牺牲模型质量。
Nov, 2023
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
使用重点理论工具,在 Wasserstein 空间中进行局部收敛分析和扰动镜像下降分析,通过将度量离散化并运行非凸梯度下降来解决衡量函数的稀疏性惩罚问题,实现全局优化算法,其复杂度与凸多项式相比在所期望的精度下具有 log(1/ε) 的比例关系
Jul, 2019
我们的研究发现,在通过网络修剪增加模型的稀疏性时,测试性能会出现一个稀疏双下降现象,即测试性能先下降,然后上升并达到顶峰,最后再次下降。我们提出了一个新的学习距离解释,它可以很好地反映稀疏双下降曲线,并比最小值平坦性更好地反映泛化能力,此外,我们还发现在稀疏双下降的情况下,中彩票假设的优势并不总是存在。
Jun, 2022
通过利用数据的固有低维结构和模型参数的可压缩动力学,我们展示了优化和泛化方面的超参数化的好处,而无需增加计算负担。在深度低秩矩阵补全和微调语言模型的实践中,我们证明了这种方法的有效性,同时保留了超参数化对性能的优势。
Jun, 2024
这篇论文提出了一种新方法,称为截断梯度 (truncated gradient),可以在凸损失函数的在线学习算法中诱导稀疏性,该方法具有连续控制稀疏化程度的参数,类似于 $L_1$ 正则化方法,理论上可以证明小的稀疏化率仅会导致额外的小代价,并且在实践中取得了良好的效果。
Jun, 2008