神经网络中排列不变性在线性模式连通性中的作用
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024
研究神经网络优化是否在不同的 SGD 噪声样本下优化到相同的线性连接最小值;发现标准视觉模型在训练早期就变得稳定了,IMP 只有在稳定下来 SGD 噪声时才能达到完全准确性。
Dec, 2019
理论上解释了以往实验观察到的两次随机训练之后找到的两个不同解经常通过简单连续路径(例如线性)通过权重的排列变换相连的现象,基于经验测度的 Wasserstein 距离的收敛速度,我们证明了用随机梯度下降训练的足够宽的两层神经网络的线性连接性,并且对具有独立神经元权重的两个深度神经网络的每层宽度的上下界给出了线性连接性,最后通过展示权重分布支持的维度与线性模式连接性的相关性来验证我们方法的有效性。
Oct, 2023
本研究提出了一种通过置换组捕捉相邻节点间的成对相关性的高效置换敏感聚合机制,证明我们的方法比 2-WL 图同构测试更强大且不逊于 3-WL 测试,并证明我们的方法可以实现线性采样复杂度。多个数据集的综合实验证明了我们模型的优越性。
May, 2022
通过对近似贝叶斯神经网络(BNNs)的分析,扩展了边界损失和解决方案插值的形式,并提出了一种匹配算法来寻找线性连接的解决方案。实验证明,在各种体系结构和数据集上,线性连接的解决方案几乎没有边界损失。
Oct, 2023
线性全连接神经网络所参数化的函数集合是一个行列式变种。我们研究了在置换群的作用下等变或不变的函数子变种。对于这些等变或不变的子变种,我们提供了其维数、度数以及欧氏距离度数和奇点的明确描述。我们对任意置换群完全表征了不变性和循环群的等变性。我们对等变和不变的线性网络的参数化和设计提出了结论,如权重共享特性,并证明所有不变的线性函数可以通过线性自编码器进行学习。
Sep, 2023
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
本文探讨了 Entezari 等人(2021)的猜想,即如果考虑神经网络的排列不变性,则线性插值可能没有损失障碍。作者提出了一种名为 REPAIR 的解决方法,通过重新缩放插值网络的预激活来减轻方差崩溃现象,在各种架构和任务中,使用 REPAIR 相对于神经元校准方法可以导致 60%-100%的障碍相对减少。其中在 ImageNet 上的 ResNet50 和 CIFAR10 上的 ResNet18 上分别获得了 74%和 90%的障碍减少。
Nov, 2022
通过在训练时进行神经元对齐,以及使用剪枝和部分梯度掩码算法,研究了深度学习中解决线性模式连接层面上的障碍的方法,这在模型融合算法中具有重要的应用。
Feb, 2024