深度学习优化理解
本研究探讨深度学习中的泛化现象,并发现隐式正则化通过优化方法在深度学习模型的泛化和成功方面起着关键作用,我们进一步研究了不同的复杂度度量,以确保泛化并解释了优化算法如何隐含地正则化这些复杂度度量,为了更好地研究神经网络中的不变量,我们提出了复杂度度量和优化算法,并在许多学习任务上进行了评估。
Sep, 2017
本文通过展示泛化能力不受网络大小控制,而受其他隐含控制方法控制的方式,阐述了优化在深度学习模型泛化中的至关重要性,并通过研究深度网络参数空间的几何和设计一种调整到此空间的最优化算法来改善泛化能力。
May, 2017
深度学习中优化的关键问题是通过学习优化器来加速优化过程,但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响,研究并对比手动设计和学习优化器的优缺点,提出了关键见解。
Dec, 2023
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能,但目前仍然计算代价高昂,尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案,既能降低神经网络的扩展成本,又能为低资源应用提供高效的优化。通过数学分析其梯度,我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型,我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中,我们发现在计算上,明确的解决方案可以接近最优解,同时证明了:1) 迭代优化对明确解决方案参数的改进仅有微小影响,2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络,并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用,我们强调仅通过反向传播无法达到这些最优解,即只有在应用明确解决方案后才能发现更好的最优解。最后,我们讨论了解决方案的计算节约以及它对模型可解释性的影响,并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。
Nov, 2023
研究了梯度下降法与梯度流动在深度学习中的关系,发现深度神经网络上的梯度流动轨迹存在良好曲率,能够很好地近似梯度下降法。理论和实验结果表明,梯度下降法具有较高的计算效率和全局最小解收敛保证。
Jul, 2021
通过使用离散时间动力系统的 Koopman 算子理论,我们发现在线镜像和梯度下降的 Koopman 谱高度重叠,并提供了第一个关于机器学习方法优化选择的泛化特征化,包括学习率,批量大小,层宽,数据集和激活函数等多个因素的影响。
Feb, 2023