神经网络模定域排列的线性连通性

Apr, 2024

神经网络模定域排列的线性连通性

Simultaneous linear connectivity of neural networks modulo permutation

Ekansh Sharma, Devin Kwok, Tom Denton, Daniel M. Roy, David Rolnick...

TL;DR神经网络通常表现出置换对称性，这会导致网络损失地形的非凸性，因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为，置换对称性是非凸性的唯一来源，这意味着如果适当进行置换，训练网络之间基本上没有这样的障碍。在这项工作中，我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”，即对于属于一组 SGD 解的每对网络，存在（多个）置换将其与其他网络进行线性连接。相反，“强线性连接性” 这一主张，即对于每个网络，至少存在一个置换能够与其他网络同时连接，在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后，损失地形是凸的，并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中，我们引入了一个中间主张，即对于某些网络序列，存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说，我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列，这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后，我们提供了首次证据，即在某些条件下强线性连接可能是可能的，通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。

Abstract

neural networks typically exhibit permutation symmetries which contribute to the non-convexity of the networks' loss landscapes, since lin

neural networks permutation symmetries loss landscapes linear connectivity barriers

发现论文，激发创造

神经网络中排列不变性在线性模式连通性中的作用

本文研究神经网络的排列不变性，提出 SGD 解决方案在其线性插值中没有障碍的假设，并通过实验证明该假设，同时提供初步理论结果来支持我们的假设。该假设将对彩票假设、分布式训练和集成方法产生影响。

Oct, 2021

通过神经元对齐优化模式连接性

本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响，该框架考虑了网络权重置换的影响，提出了称为神经元对齐的廉价启发式方法来近似最优置换，从而证明了该方法在模式连通性方面的实际效果优越。

Sep, 2020

贝叶斯神经网络后验中的排列对称性：变分视角

通过对近似贝叶斯神经网络（BNNs）的分析，扩展了边界损失和解决方案插值的形式，并提出了一种匹配算法来寻找线性连接的解决方案。实验证明，在各种体系结构和数据集上，线性连接的解决方案几乎没有边界损失。

Oct, 2023

模式组合能力：探索置换对齐模型的凸组合

我们研究了两个大小为 d 的排列对齐神经网络参数向量 ΘA 和 ΘB 之间的逐元素凸组合。我们通过检查由 [0,1]^{d} 超立方体元素参数化的各种模型组合的分布及其附近进行了大量实验证明，超立方体的广泛区域形成了低损失值的曲面，表明线性模式连接性的概念扩展到了我们称为模式组合性的更一般现象。我们还对线性模式连接性和模型重分配做出了几个新观察。我们证明了一个传递性属性：两个重新分配到第三个共同模型的模型也是线性模式连接的；还有一个鲁棒性属性：尽管神经元匹配存在显著扰动，但所得到的组合仍然形成一个有效的模型。此外，我们分析了模型组合的功能和权重相似性，并展示了这种组合的非平凡性，即所得到的模型之间存在显著的功能差异。

Aug, 2023

深度网络中的权重空间对称性导致排列鞍点出现，在损失景观中通过等损谷相连

该研究利用深度神经网络计算的几何方法，探讨网络层之间的置换对全局极小化及鞍点问题的影响及其数学意义。

Jul, 2019

通过最优传输证明神经网络的线性模式连接性

理论上解释了以往实验观察到的两次随机训练之后找到的两个不同解经常通过简单连续路径（例如线性）通过权重的排列变换相连的现象，基于经验测度的 Wasserstein 距离的收敛速度，我们证明了用随机梯度下降训练的足够宽的两层神经网络的线性连接性，并且对具有独立神经元权重的两个深度神经网络的每层宽度的上下界给出了线性连接性，最后通过展示权重分布支持的维度与线性模式连接性的相关性来验证我们方法的有效性。

Oct, 2023

线性连通性揭示泛化策略

使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象，发现了线性路径上增加的损失不断增加的现象，并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。

May, 2022

关于对称性下的学习难度

通过梯度下降，我们研究了学习等变神经网络的问题。尽管已知的问题对称（“等变性”）被纳入神经网络中，经验上改善了从生物学到计算机视觉等领域的学习流程的性能，但是一项有关学习理论的研究表明，在相关统计查询模型（CSQ）中，实际学习浅层全连接（即非对称）网络的复杂度呈指数级增长。在这项工作中，我们提出了一个问题：已知的问题对称是否足以减轻通过梯度下降学习等变神经网络的基本困难？我们的答案是否定的。特别地，我们给出了浅层图神经网络、卷积网络、不变多项式和排列子群的框架平均网络的下界，这些下界在相关输入维度中都以超多项式或指数级增长。因此，尽管通过对称性注入了显著的归纳偏差，但通过梯度下降实际学习等变神经网络所代表的完整函数类仍然是困难的。

Jan, 2024

Git Re-Basin: 模除置换对称的模型合并

本研究提出了三种算法，用于将一个模型的单元重新排列以与参考模型对齐，以便在权重空间中合并两个模型，实验结果表明了单一流域现象在各种模型架构和数据集中的存在，并讨论了模型宽度和训练时间与模式连通性的相关现象，同时证明了单流域理论的一个反例。

Sep, 2022

应用置换等变神经网络于动态预测

介绍了一种对置换对称的神经网络层，类比于卷积层，可以预测 2D 中密集互动粒子的运动，同时可以适应不同数量的对象。

Dec, 2016