通过置换子空间进行训练时神经元对齐以提高线性模式连接性和模型融合

Feb, 2024

通过置换子空间进行训练时神经元对齐以提高线性模式连接性和模型融合

Training-time Neuron Alignment through Permutation Subspace for Improving Linear Mode Connectivity and Model Fusion

Zexi Li, Zhiqi Li, Jie Lin, Tao Shen, Tao Lin...

TL;DR通过在训练时进行神经元对齐，以及使用剪枝和部分梯度掩码算法，研究了深度学习中解决线性模式连接层面上的障碍的方法，这在模型融合算法中具有重要的应用。

Abstract

In deep learning, stochastic gradient descent often yields functionally similar yet widely scattered solutions in the weight space even under the same initialization, causing barriers in the →

deep learning stochastic gradient descent linear mode connectivity neuron alignment model fusion

发现论文，激发创造

通过神经元对齐优化模式连接性

本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响，该框架考虑了网络权重置换的影响，提出了称为神经元对齐的廉价启发式方法来近似最优置换，从而证明了该方法在模式连通性方面的实际效果优越。

Sep, 2020

线性模态连接性的基于置换的权重匹配分析

最近，Ainsworth 等人表明，在模型参数的置换搜索中使用权重匹配（WM）来最小化 $L_2$ 距离有效地识别符合线性模态连通性（LMC）的排列，其中在不同种子训练的两个独立模型之间的线性路径上的损失保持几乎不变。本文提供了关于使用 WM 的 LMC 的理论分析，这对于理解随机梯度下降的有效性及其在模型合并等领域的应用至关重要。我们首先通过实验和理论表明，WM 找到的排列并没有明显减小两个模型之间的 $L_2$ 距离，且 LMC 的发生并不仅仅是由于 WM 本身的距离缩小。然后，我们提供理论见解，表明排列可以改变每层权重矩阵奇异向量的方向，但不会改变奇异值。这一发现表明，WM 找到的排列主要是使得与大奇异值相关的奇异向量在模型之间更加接近。这种对齐使得后合并模型在功能上与前合并模型保持相似，从而容易满足 LMC。最后，我们分析了 WM 和依赖于数据集的直通估计器（STE）之间的差异，并表明 WM 在合并三个或更多模型时表现更好。

Feb, 2024

神经网络模定域排列的线性连通性

神经网络通常表现出置换对称性，这会导致网络损失地形的非凸性，因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为，置换对称性是非凸性的唯一来源，这意味着如果适当进行置换，训练网络之间基本上没有这样的障碍。在这项工作中，我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”，即对于属于一组 SGD 解的每对网络，存在（多个）置换将其与其他网络进行线性连接。相反，“强线性连接性” 这一主张，即对于每个网络，至少存在一个置换能够与其他网络同时连接，在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后，损失地形是凸的，并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中，我们引入了一个中间主张，即对于某些网络序列，存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说，我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列，这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后，我们提供了首次证据，即在某些条件下强线性连接可能是可能的，通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。

Apr, 2024

神经网络中排列不变性在线性模式连通性中的作用

本文研究神经网络的排列不变性，提出 SGD 解决方案在其线性插值中没有障碍的假设，并通过实验证明该假设，同时提供初步理论结果来支持我们的假设。该假设将对彩票假设、分布式训练和集成方法产生影响。

Oct, 2021

超越线性模式连通性：逐层线性特征连通性

本文主要研究神经网络训练过程中的参数空间和特征映射，提出了一种新的线性连接概念 LLFC 并进行了广泛的经验分析。对 LMC 的深入研究揭示了新的有关生成和置换方法的因素，从已训练的网络的每个层的特征映射的角度推进了对 LMC 的理解。

Jul, 2023

通过本地对齐分布式表示进行循环神经网络的持续学习

本文提出了一种基于局部表示对齐算法训练的并行时间神经编码网络 (P-TNCN)，用以解决通过时间反向传播所存在的困难和问题，比如序列建模基准测试中表现优异，具有零 - shot 适应能力和在线连续序列建模的能力。

Oct, 2018

Git Re-Basin: 模除置换对称的模型合并

本研究提出了三种算法，用于将一个模型的单元重新排列以与参考模型对齐，以便在权重空间中合并两个模型，实验结果表明了单一流域现象在各种模型架构和数据集中的存在，并讨论了模型宽度和训练时间与模式连通性的相关现象，同时证明了单流域理论的一个反例。

Sep, 2022

模式组合能力：探索置换对齐模型的凸组合

我们研究了两个大小为 d 的排列对齐神经网络参数向量 ΘA 和 ΘB 之间的逐元素凸组合。我们通过检查由 [0,1]^{d} 超立方体元素参数化的各种模型组合的分布及其附近进行了大量实验证明，超立方体的广泛区域形成了低损失值的曲面，表明线性模式连接性的概念扩展到了我们称为模式组合性的更一般现象。我们还对线性模式连接性和模型重分配做出了几个新观察。我们证明了一个传递性属性：两个重新分配到第三个共同模型的模型也是线性模式连接的；还有一个鲁棒性属性：尽管神经元匹配存在显著扰动，但所得到的组合仍然形成一个有效的模型。此外，我们分析了模型组合的功能和权重相似性，并展示了这种组合的非平凡性，即所得到的模型之间存在显著的功能差异。

Aug, 2023

贝叶斯神经网络后验中的排列对称性：变分视角

通过对近似贝叶斯神经网络（BNNs）的分析，扩展了边界损失和解决方案插值的形式，并提出了一种匹配算法来寻找线性连接的解决方案。实验证明，在各种体系结构和数据集上，线性连接的解决方案几乎没有边界损失。

Oct, 2023

等变深度权重空间对齐

通过学习解决权重对齐问题的新框架 Deep-Align，该研究提出了深度网络的排列对称性和权重排列两个基本对称性，并在多个网络架构和学习设置上进行了实验，结果显示 Deep-Align 能够产生与当前优化算法相比更好或相等的对齐，并可用作其他方法的初始化，以实现更好的解决方案和显著加速收敛速度。

Oct, 2023