通过置换子空间进行训练时神经元对齐以提高线性模式连接性和模型融合
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020
最近,Ainsworth 等人表明,在模型参数的置换搜索中使用权重匹配(WM)来最小化 $L_2$ 距离有效地识别符合线性模态连通性(LMC)的排列,其中在不同种子训练的两个独立模型之间的线性路径上的损失保持几乎不变。本文提供了关于使用 WM 的 LMC 的理论分析,这对于理解随机梯度下降的有效性及其在模型合并等领域的应用至关重要。我们首先通过实验和理论表明,WM 找到的排列并没有明显减小两个模型之间的 $L_2$ 距离,且 LMC 的发生并不仅仅是由于 WM 本身的距离缩小。然后,我们提供理论见解,表明排列可以改变每层权重矩阵奇异向量的方向,但不会改变奇异值。这一发现表明,WM 找到的排列主要是使得与大奇异值相关的奇异向量在模型之间更加接近。这种对齐使得后合并模型在功能上与前合并模型保持相似,从而容易满足 LMC。最后,我们分析了 WM 和依赖于数据集的直通估计器(STE)之间的差异,并表明 WM 在合并三个或更多模型时表现更好。
Feb, 2024
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024
本文研究神经网络的排列不变性,提出 SGD 解决方案在其线性插值中没有障碍的假设,并通过实验证明该假设,同时提供初步理论结果来支持我们的假设。该假设将对彩票假设、分布式训练和集成方法产生影响。
Oct, 2021
本文主要研究神经网络训练过程中的参数空间和特征映射,提出了一种新的线性连接概念 LLFC 并进行了广泛的经验分析。对 LMC 的深入研究揭示了新的有关生成和置换方法的因素,从已训练的网络的每个层的特征映射的角度推进了对 LMC 的理解。
Jul, 2023
本文提出了一种基于局部表示对齐算法训练的并行时间神经编码网络 (P-TNCN),用以解决通过时间反向传播所存在的困难和问题,比如序列建模基准测试中表现优异,具有零 - shot 适应能力和在线连续序列建模的能力。
Oct, 2018
本研究提出了三种算法,用于将一个模型的单元重新排列以与参考模型对齐,以便在权重空间中合并两个模型,实验结果表明了单一流域现象在各种模型架构和数据集中的存在,并讨论了模型宽度和训练时间与模式连通性的相关现象,同时证明了单流域理论的一个反例。
Sep, 2022
我们研究了两个大小为 d 的排列对齐神经网络参数向量 ΘA 和 ΘB 之间的逐元素凸组合。我们通过检查由 [0,1]^{d} 超立方体元素参数化的各种模型组合的分布及其附近进行了大量实验证明,超立方体的广泛区域形成了低损失值的曲面,表明线性模式连接性的概念扩展到了我们称为模式组合性的更一般现象。我们还对线性模式连接性和模型重分配做出了几个新观察。我们证明了一个传递性属性:两个重新分配到第三个共同模型的模型也是线性模式连接的;还有一个鲁棒性属性:尽管神经元匹配存在显著扰动,但所得到的组合仍然形成一个有效的模型。此外,我们分析了模型组合的功能和权重相似性,并展示了这种组合的非平凡性,即所得到的模型之间存在显著的功能差异。
Aug, 2023
通过对近似贝叶斯神经网络(BNNs)的分析,扩展了边界损失和解决方案插值的形式,并提出了一种匹配算法来寻找线性连接的解决方案。实验证明,在各种体系结构和数据集上,线性连接的解决方案几乎没有边界损失。
Oct, 2023
通过学习解决权重对齐问题的新框架 Deep-Align,该研究提出了深度网络的排列对称性和权重排列两个基本对称性,并在多个网络架构和学习设置上进行了实验,结果显示 Deep-Align 能够产生与当前优化算法相比更好或相等的对齐,并可用作其他方法的初始化,以实现更好的解决方案和显著加速收敛速度。
Oct, 2023