重新思考模型再盆地与线性模态连通性
本研究提出了三种算法,用于将一个模型的单元重新排列以与参考模型对齐,以便在权重空间中合并两个模型,实验结果表明了单一流域现象在各种模型架构和数据集中的存在,并讨论了模型宽度和训练时间与模式连通性的相关现象,同时证明了单流域理论的一个反例。
Sep, 2022
我们研究了两个大小为 d 的排列对齐神经网络参数向量 ΘA 和 ΘB 之间的逐元素凸组合。我们通过检查由 [0,1]^{d} 超立方体元素参数化的各种模型组合的分布及其附近进行了大量实验证明,超立方体的广泛区域形成了低损失值的曲面,表明线性模式连接性的概念扩展到了我们称为模式组合性的更一般现象。我们还对线性模式连接性和模型重分配做出了几个新观察。我们证明了一个传递性属性:两个重新分配到第三个共同模型的模型也是线性模式连接的;还有一个鲁棒性属性:尽管神经元匹配存在显著扰动,但所得到的组合仍然形成一个有效的模型。此外,我们分析了模型组合的功能和权重相似性,并展示了这种组合的非平凡性,即所得到的模型之间存在显著的功能差异。
Aug, 2023
通过引入聚合技术和蒸馏方法,我们在同一领域内重新发现了多盆地深度聚合模型,从而证明了多模式神经损失景观对于深度聚合模型的经验成功起到重要推动作用,虽然连接性增加会负面影响性能。
Feb, 2024
使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象,发现了线性路径上增加的损失不断增加的现象,并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。
May, 2022
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020
本文研究神经网络的排列不变性,提出 SGD 解决方案在其线性插值中没有障碍的假设,并通过实验证明该假设,同时提供初步理论结果来支持我们的假设。该假设将对彩票假设、分布式训练和集成方法产生影响。
Oct, 2021
研究了小世界网络模型,证明该模型展现了正常的连续相变,提出实空间重整化群转化方法并计算了临界指数的准确值以及两个节点在网络中连接的平均度数随三个独立变量变化的比例。结果通过大量数值模拟得到证实。
Mar, 1999
本文研究神经网络损失景观的模式连接性,提出了机制相似性的定义,并证明缺乏线性连接意味着两个模型使用不同的机制进行预测。作者还介绍了一种名为基于连接性的微调方法用于正确修改一个模型的机制,以减少对于虚假属性的依赖。
Nov, 2022
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024