通过神经元对齐优化模式连接性
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024
本文研究神经网络损失景观的模式连接性,提出了机制相似性的定义,并证明缺乏线性连接意味着两个模型使用不同的机制进行预测。作者还介绍了一种名为基于连接性的微调方法用于正确修改一个模型的机制,以减少对于虚假属性的依赖。
Nov, 2022
本文提出使用模态连通性来研究深度神经网络的对抗鲁棒性,并提供了提高对抗鲁棒性的新方法。实验结果表明,使用少量的真实数据学习到的路径连接可以有效地减轻对抗攻击的影响,同时在干净数据上保持原有的准确性。同时,该研究还使用模态连通性来对比分析正常模型和鲁棒模型的损失,在对抗鲁棒性损失的路径上存在壁垒,该损失与输入 Hessian 矩阵的最大特征值之间存在高度相关性。
Apr, 2020
理论上解释了以往实验观察到的两次随机训练之后找到的两个不同解经常通过简单连续路径(例如线性)通过权重的排列变换相连的现象,基于经验测度的 Wasserstein 距离的收敛速度,我们证明了用随机梯度下降训练的足够宽的两层神经网络的线性连接性,并且对具有独立神经元权重的两个深度神经网络的每层宽度的上下界给出了线性连接性,最后通过展示权重分布支持的维度与线性模式连接性的相关性来验证我们方法的有效性。
Oct, 2023
本文通过研究不同训练条件下的模型连接性,探索了通过余弦退火和重启的随机梯度下降方法对损失表面的训练轨迹的影响,通过实验证明了 SGDR 方法虽然能够跨越障碍,但是不能收敛于多个局部最小值。
Jun, 2018
我们研究了两个大小为 d 的排列对齐神经网络参数向量 ΘA 和 ΘB 之间的逐元素凸组合。我们通过检查由 [0,1]^{d} 超立方体元素参数化的各种模型组合的分布及其附近进行了大量实验证明,超立方体的广泛区域形成了低损失值的曲面,表明线性模式连接性的概念扩展到了我们称为模式组合性的更一般现象。我们还对线性模式连接性和模型重分配做出了几个新观察。我们证明了一个传递性属性:两个重新分配到第三个共同模型的模型也是线性模式连接的;还有一个鲁棒性属性:尽管神经元匹配存在显著扰动,但所得到的组合仍然形成一个有效的模型。此外,我们分析了模型组合的功能和权重相似性,并展示了这种组合的非平凡性,即所得到的模型之间存在显著的功能差异。
Aug, 2023
通过在训练时进行神经元对齐,以及使用剪枝和部分梯度掩码算法,研究了深度学习中解决线性模式连接层面上的障碍的方法,这在模型融合算法中具有重要的应用。
Feb, 2024