神经网络损失函数的大尺度结构
本文研究深度神经网络优化问题中的高维非凸性质,通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响,通过证明半修正单层网络的渐进连通性,以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示,虽然吸引子很小,但这些水平面在所有的学习阶段都保持连通。
Nov, 2016
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的“滤波器归一化”方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
Oct, 2019
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
本文研究神经网络的损失景观,通过线性插值从初始状态到最终状态的方式探讨算法中的优化问题,发现线性插值的形状并不反映模型测试准确度变化,这破坏了关于插值中阻碍存在或不存在与优化成功相关的广泛思想。
Jun, 2021
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023
本研究解决了神经网络损失景观在样本量增加时变化的未探索问题。通过理论分析和实证研究,展示了损失函数在图像分类任务上的收敛性,并为样本量确定技术的发展提供了重要启示。
Sep, 2024
本研究解决了现有深度学习模型优化方法需满足的特定结构条件的不足。我们提出了一种新函数类,能够在不需要大量过度参数化的情况下表征深度模型的损失景观,并证明了基于梯度的优化器在此假设下的收敛性。通过理论分析和实证实验验证了该新函数类的可靠性。
Oct, 2024
本研究针对深度学习模型损失景观的复杂非凸性,提出一种新的函数类,以解决现有优化方法对过度参数化的依赖。研究表明,在这种新假设下,基于梯度的优化器具备收敛的理论保证,且通过理论分析和实验证明了其有效性。
Oct, 2024