景观线性模式连接
神经网络损失地形的线性模式连接 (或缺乏连接) 是一个有趣的特性,尽管在经验上已经被证实,但还缺乏适当的理论理解。本文通过探讨三个因素(架构、训练策略和底层数据集)对线性模式连接的影响,旨在弥补文献中对当网络展示线性模式连接的系统性研究的不足。我们特别关注最少但非平凡的设置,以尽可能消除不必要的复杂性,并相信我们的观察能够指导未来揭示线性模式连接内部机制的理论研究。
Dec, 2023
本文主要研究神经网络训练过程中的参数空间和特征映射,提出了一种新的线性连接概念 LLFC 并进行了广泛的经验分析。对 LMC 的深入研究揭示了新的有关生成和置换方法的因素,从已训练的网络的每个层的特征映射的角度推进了对 LMC 的理解。
Jul, 2023
线性模连接(LMC)是指在参数空间中进行线性插值模型时性能保持一致的现象。本文首先实现了软树集成的 LMC,展示了树架构中子树翻转不变性和分割顺序不变性的必要性,并证明了通过设计基于决策列表的树结构可以在保持 LMC 的同时排除这些附加不变性的可能性。我们的发现表明,在实现 LMC 时需要考虑特定于架构的不变性的重要性。
May, 2024
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020
本文提出使用模态连通性来研究深度神经网络的对抗鲁棒性,并提供了提高对抗鲁棒性的新方法。实验结果表明,使用少量的真实数据学习到的路径连接可以有效地减轻对抗攻击的影响,同时在干净数据上保持原有的准确性。同时,该研究还使用模态连通性来对比分析正常模型和鲁棒模型的损失,在对抗鲁棒性损失的路径上存在壁垒,该损失与输入 Hessian 矩阵的最大特征值之间存在高度相关性。
Apr, 2020
使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象,发现了线性路径上增加的损失不断增加的现象,并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。
May, 2022
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019