超越线性模式连通性:逐层线性特征连通性
神经网络损失地形的线性模式连接 (或缺乏连接) 是一个有趣的特性,尽管在经验上已经被证实,但还缺乏适当的理论理解。本文通过探讨三个因素(架构、训练策略和底层数据集)对线性模式连接的影响,旨在弥补文献中对当网络展示线性模式连接的系统性研究的不足。我们特别关注最少但非平凡的设置,以尽可能消除不必要的复杂性,并相信我们的观察能够指导未来揭示线性模式连接内部机制的理论研究。
Dec, 2023
线性模连接(LMC)是指在参数空间中进行线性插值模型时性能保持一致的现象。本文首先实现了软树集成的 LMC,展示了树架构中子树翻转不变性和分割顺序不变性的必要性,并证明了通过设计基于决策列表的树结构可以在保持 LMC 的同时排除这些附加不变性的可能性。我们的发现表明,在实现 LMC 时需要考虑特定于架构的不变性的重要性。
May, 2024
使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象,发现了线性路径上增加的损失不断增加的现象,并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。
May, 2022
理论上解释了以往实验观察到的两次随机训练之后找到的两个不同解经常通过简单连续路径(例如线性)通过权重的排列变换相连的现象,基于经验测度的 Wasserstein 距离的收敛速度,我们证明了用随机梯度下降训练的足够宽的两层神经网络的线性连接性,并且对具有独立神经元权重的两个深度神经网络的每层宽度的上下界给出了线性连接性,最后通过展示权重分布支持的维度与线性模式连接性的相关性来验证我们方法的有效性。
Oct, 2023
最近,Ainsworth 等人表明,在模型参数的置换搜索中使用权重匹配(WM)来最小化 $L_2$ 距离有效地识别符合线性模态连通性(LMC)的排列,其中在不同种子训练的两个独立模型之间的线性路径上的损失保持几乎不变。本文提供了关于使用 WM 的 LMC 的理论分析,这对于理解随机梯度下降的有效性及其在模型合并等领域的应用至关重要。我们首先通过实验和理论表明,WM 找到的排列并没有明显减小两个模型之间的 $L_2$ 距离,且 LMC 的发生并不仅仅是由于 WM 本身的距离缩小。然后,我们提供理论见解,表明排列可以改变每层权重矩阵奇异向量的方向,但不会改变奇异值。这一发现表明,WM 找到的排列主要是使得与大奇异值相关的奇异向量在模型之间更加接近。这种对齐使得后合并模型在功能上与前合并模型保持相似,从而容易满足 LMC。最后,我们分析了 WM 和依赖于数据集的直通估计器(STE)之间的差异,并表明 WM 在合并三个或更多模型时表现更好。
Feb, 2024
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024
通过在训练时进行神经元对齐,以及使用剪枝和部分梯度掩码算法,研究了深度学习中解决线性模式连接层面上的障碍的方法,这在模型融合算法中具有重要的应用。
Feb, 2024
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020