研究了多层神经网络的优化问题,通过引入随机梯度下降和过度参数化,证明了神经网络的优化路径具有线性特性,且稳定性越来越高,去除部分神经元不影响结果。
Dec, 2019
神经网络景观中的连接模式包括线性路径和中心连接,提供了从一个极小值到另一个极小值的连接途径,同时突显景观在超参数化情况下可能具有凸性。
Apr, 2024
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020
理论上解释了以往实验观察到的两次随机训练之后找到的两个不同解经常通过简单连续路径(例如线性)通过权重的排列变换相连的现象,基于经验测度的 Wasserstein 距离的收敛速度,我们证明了用随机梯度下降训练的足够宽的两层神经网络的线性连接性,并且对具有独立神经元权重的两个深度神经网络的每层宽度的上下界给出了线性连接性,最后通过展示权重分布支持的维度与线性模式连接性的相关性来验证我们方法的有效性。
Oct, 2023
通过提供 “山坡和山脊” 视角以及理论分析障碍高度,我们致力于为线性模态连接的发生提供一个工作模型,了解在神经网络的非凸损失景观中出现线性模态连接的核心原因。
Jun, 2024
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象,发现了线性路径上增加的损失不断增加的现象,并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。
May, 2022
本文提出使用模态连通性来研究深度神经网络的对抗鲁棒性,并提供了提高对抗鲁棒性的新方法。实验结果表明,使用少量的真实数据学习到的路径连接可以有效地减轻对抗攻击的影响,同时在干净数据上保持原有的准确性。同时,该研究还使用模态连通性来对比分析正常模型和鲁棒模型的损失,在对抗鲁棒性损失的路径上存在壁垒,该损失与输入 Hessian 矩阵的最大特征值之间存在高度相关性。
Apr, 2020
神经网络损失地形的线性模式连接 (或缺乏连接) 是一个有趣的特性,尽管在经验上已经被证实,但还缺乏适当的理论理解。本文通过探讨三个因素(架构、训练策略和底层数据集)对线性模式连接的影响,旨在弥补文献中对当网络展示线性模式连接的系统性研究的不足。我们特别关注最少但非平凡的设置,以尽可能消除不必要的复杂性,并相信我们的观察能够指导未来揭示线性模式连接内部机制的理论研究。
Dec, 2023
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017