旧优化器,新范数:选集
该研究通过对矩阵分解、张量分解和深度神经网络训练等问题的非凸优化问题的充分条件分析,提出了一种通用框架,能够在任意初始的情况下使用纯局部下降算法找到全局最小值,为深度神经网络的优化提供了理论支持和指导。
Jun, 2015
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文证明了优化器比较对超参数调整协议的敏感性,提出探究搜索空间是解释当前文献中最新动态排名的最重要因素之一,并展示实验结果证明了目前广泛使用的自适应梯度方法永远不会劣于动量或梯度下降。
Oct, 2019
本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设Coherent Gradients,并支持该假设的启发式论证和简单实验证明。同时,该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。
Feb, 2020
本文讲述了利用神经网络参数化的层次优化器提供自动正则化的能力,从而可以训练多种问题的通用学习优化器,可适应超参数和架构的变化,且适用于自我训练等需要解决分布问题的任务。
Sep, 2020
超越随机梯度下降(SGD),在Adam等自适应优化器训练的宽神经网络中出现了哪些新现象?我们展示了:与SGD中相同的特征学习和核行为二分法同样适用于各种优化器,包括Adam——尽管使用了非线性的“核”概念。我们推导出了相应的任何架构的“神经切线”和“最大更新”的极限。上述结果的两个基础性突破是:1)一种新的张量程序语言NEXORT,可以表达自适应优化器是如何将梯度转化为更新的。2)引入bra-ket表示法,以极大地简化张量程序中的表达和计算。本工作总结并概括了张量程序系列文章中的所有先前结果。
Aug, 2023
深度学习中优化的关键问题是通过学习优化器来加速优化过程,但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响,研究并对比手动设计和学习优化器的优缺点,提出了关键见解。
Dec, 2023
通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程,并对其最优权重提供更好的解释,我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练,证明了这些网络可以表达为一个有限维的凸规划问题,其中包括促使稀疏性的正则化项,构成Lasso的变种。通过大量的数值实验,我们展示了凸模型可以胜过传统非凸方法,并且对于优化器的超参数并不敏感。
Dec, 2023
该论文通过证明当损失函数平滑并满足PL不等式时,自适应梯度方法AdaGrad和Adam可以实现线性收敛。该理论框架采用简单而统一的方法,适用于批量和随机梯度,并可以潜在地用于分析其他Adam变种的线性收敛。
Jul, 2024