神经网络中排列不变性在线性模式连通性中的作用

Oct, 2021

神经网络中排列不变性在线性模式连通性中的作用

The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks

Rahim Entezari, Hanie Sedghi, Olga Saukh, Behnam Neyshabur

TL;DR本文研究神经网络的排列不变性，提出 SGD 解决方案在其线性插值中没有障碍的假设，并通过实验证明该假设，同时提供初步理论结果来支持我们的假设。该假设将对彩票假设、分布式训练和集成方法产生影响。

Abstract

In this paper, we conjecture that if the permutation invariance of neural networks is taken into account, sgd solutions will likely have no barrier in the linear interpolation between them. Although it is a bold

neural networks sgd solutions linear interpolation theoretical result lottery ticket hypothesis

发现论文，激发创造

神经网络模定域排列的线性连通性

神经网络通常表现出置换对称性，这会导致网络损失地形的非凸性，因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为，置换对称性是非凸性的唯一来源，这意味着如果适当进行置换，训练网络之间基本上没有这样的障碍。在这项工作中，我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”，即对于属于一组 SGD 解的每对网络，存在（多个）置换将其与其他网络进行线性连接。相反，“强线性连接性” 这一主张，即对于每个网络，至少存在一个置换能够与其他网络同时连接，在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后，损失地形是凸的，并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中，我们引入了一个中间主张，即对于某些网络序列，存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说，我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列，这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后，我们提供了首次证据，即在某些条件下强线性连接可能是可能的，通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。

Apr, 2024

线性模式连通性与彩票票证假说

研究神经网络优化是否在不同的 SGD 噪声样本下优化到相同的线性连接最小值；发现标准视觉模型在训练早期就变得稳定了，IMP 只有在稳定下来 SGD 噪声时才能达到完全准确性。

Dec, 2019

通过最优传输证明神经网络的线性模式连接性

理论上解释了以往实验观察到的两次随机训练之后找到的两个不同解经常通过简单连续路径（例如线性）通过权重的排列变换相连的现象，基于经验测度的 Wasserstein 距离的收敛速度，我们证明了用随机梯度下降训练的足够宽的两层神经网络的线性连接性，并且对具有独立神经元权重的两个深度神经网络的每层宽度的上下界给出了线性连接性，最后通过展示权重分布支持的维度与线性模式连接性的相关性来验证我们方法的有效性。

Oct, 2023

深入理解置换敏感的图神经网络

本研究提出了一种通过置换组捕捉相邻节点间的成对相关性的高效置换敏感聚合机制，证明我们的方法比 2-WL 图同构测试更强大且不逊于 3-WL 测试，并证明我们的方法可以实现线性采样复杂度。多个数据集的综合实验证明了我们模型的优越性。

May, 2022

贝叶斯神经网络后验中的排列对称性：变分视角

通过对近似贝叶斯神经网络（BNNs）的分析，扩展了边界损失和解决方案插值的形式，并提出了一种匹配算法来寻找线性连接的解决方案。实验证明，在各种体系结构和数据集上，线性连接的解决方案几乎没有边界损失。

Oct, 2023

应用置换等变神经网络于动态预测

介绍了一种对置换对称的神经网络层，类比于卷积层，可以预测 2D 中密集互动粒子的运动，同时可以适应不同数量的对象。

Dec, 2016

线性神经网络的几何：对置等变性和不变性的研究

线性全连接神经网络所参数化的函数集合是一个行列式变种。我们研究了在置换群的作用下等变或不变的函数子变种。对于这些等变或不变的子变种，我们提供了其维数、度数以及欧氏距离度数和奇点的明确描述。我们对任意置换群完全表征了不变性和循环群的等变性。我们对等变和不变的线性网络的参数化和设计提出了结论，如权重共享特性，并证明所有不变的线性函数可以通过线性自编码器进行学习。

Sep, 2023

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

REPAIR: 修复插值问题的排列归一化激活函数

本文探讨了 Entezari 等人（2021）的猜想，即如果考虑神经网络的排列不变性，则线性插值可能没有损失障碍。作者提出了一种名为 REPAIR 的解决方法，通过重新缩放插值网络的预激活来减轻方差崩溃现象，在各种架构和任务中，使用 REPAIR 相对于神经元校准方法可以导致 60％-100％的障碍相对减少。其中在 ImageNet 上的 ResNet50 和 CIFAR10 上的 ResNet18 上分别获得了 74％和 90％的障碍减少。

Nov, 2022

通过置换子空间进行训练时神经元对齐以提高线性模式连接性和模型融合

通过在训练时进行神经元对齐，以及使用剪枝和部分梯度掩码算法，研究了深度学习中解决线性模式连接层面上的障碍的方法，这在模型融合算法中具有重要的应用。

Feb, 2024