线性连通性揭示泛化策略
本文主要研究神经网络训练过程中的参数空间和特征映射,提出了一种新的线性连接概念 LLFC 并进行了广泛的经验分析。对 LMC 的深入研究揭示了新的有关生成和置换方法的因素,从已训练的网络的每个层的特征映射的角度推进了对 LMC 的理解。
Jul, 2023
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们将这些论点进一步细化为三个不同的、逐渐加强的主张。我们证明现有的证据仅支持 “弱线性连接性”,即对于属于一组 SGD 解的每对网络,存在(多个)置换将其与其他网络进行线性连接。相反,“强线性连接性” 这一主张,即对于每个网络,至少存在一个置换能够与其他网络同时连接,在直观上和实际上都更加理想。这种更强的主张将意味着在考虑置换后,损失地形是凸的,并且能够在三个或多个独立训练的模型之间进行线性插值而不增加损失。在这项工作中,我们引入了一个中间主张,即对于某些网络序列,存在一个置换可以同时对齐这些序列中的匹配网络对。具体来说,我们发现一个单一的置换可以对齐逐步训练的网络序列和逐步稀疏化的网络序列,这意味着两个网络在其优化和稀疏化轨迹的每个步骤中都展示了低损失障碍。最后,我们提供了首次证据,即在某些条件下强线性连接可能是可能的,通过展示障碍在三个网络之间插值时随着网络宽度的增加而减少。
Apr, 2024
通过在预训练阶段使用不同程度的 “腐败” 数据或使用不同高斯标准偏差的权重初始化网络,利用交叉熵损失可以使网络产生不同的泛化效果。通过去除交叉熵损失中不涉及期望分类性能的成分,可以建立训练误差和测试误差之间的线性关系,而分类错误与规范化交叉熵损失之间的经验关系似乎是近似单调的。
Jul, 2018
本文研究神经网络损失景观的模式连接性,提出了机制相似性的定义,并证明缺乏线性连接意味着两个模型使用不同的机制进行预测。作者还介绍了一种名为基于连接性的微调方法用于正确修改一个模型的机制,以减少对于虚假属性的依赖。
Nov, 2022
深度神经网络的泛化能力在参数空间的损失景观形状和特征空间(即单位活动的空间)的表示流形结构两个不同的方法中已经被研究,但很少一起研究并显式连接。我们提出了一个简单的分析,建立了它们之间的联系,并展示了表明在深度神经网络的学习的最后阶段,神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。
Oct, 2023
神经网络损失地形的线性模式连接 (或缺乏连接) 是一个有趣的特性,尽管在经验上已经被证实,但还缺乏适当的理论理解。本文通过探讨三个因素(架构、训练策略和底层数据集)对线性模式连接的影响,旨在弥补文献中对当网络展示线性模式连接的系统性研究的不足。我们特别关注最少但非平凡的设置,以尽可能消除不必要的复杂性,并相信我们的观察能够指导未来揭示线性模式连接内部机制的理论研究。
Dec, 2023
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
我们研究了数据分类问题,探究了机器学习模型的特征空间几何形态、数据分布结构和泛化能力之间的关系,发现非线性特征转换对于将原始数据映射至高维甚至无限维空间对模型的泛化能力有重要影响。
Nov, 2022
本文研究了是否可以通过连续路径将同一类别的输入在原始或潜在的表征空间中连接起来,以使神经网络模型将路径上的所有点映射到相同的类别。理解神经网络如何看待自己的输入空间以及潜在空间的结构对于可解释性和鲁棒性具有价值。我们证明,在所研究的所有情况下,存在连接同类别输入的线性或非线性路径。
Nov, 2023