深度学习泛化理解:损失景观的视角
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
对于两层神经网络在全局最小值附近的损失函数图景进行研究,确定了能够实现完美泛化的参数集,并完全描述了其梯度流动。通过新颖的技术,我们揭示了复杂的损失函数图景的一些简单特征,并揭示了模型、目标函数、样本和初始化对训练动态的不同影响。基于这些结果,我们还解释了为什么过度参数化的神经网络能够很好地泛化。
Sep, 2023
通过多点优化法,从神经网络的损失曲面中发现任意二维二进制模式,证明这是深度普适型逼近器的普遍属性,我们的分析不仅预测了所有这些低维度模式的存在,而且还预测了容易找到这些模式的属性,且它们可以适用于其他数据集。
Dec, 2019
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023