对称性,平坦极小值,以及梯度流守恒量
本研究针对深度网络权重空间中的对称性问题,探讨了使用基于单位范数的约束来改善权重空间对称性问题的方法,并通过 MNIST 数据集上的实验证明该方法优于批量归一化方法且不会影响权重更新的计算性能。
Nov, 2015
本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐,而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷,并证明在不对称山谷中,偏向平面的解决方案比确切的最小值更好地推广。此外,我们还发现,批量归一化(BN)似乎是不对称山谷产生的主要原因。
Feb, 2019
通过内在对称性的理论框架,使用有限差分法实现了在实践中使用的有限学习率的精确积分表达式来描述在任何数据集上通过深度学习训练出的当代网络体系结构的各种参数组合的学习动力学。
Dec, 2020
本文通过组合分析的方式,对超参数化神经网络中对称引起的关键点进行了探讨,发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优,但是当 vastly overparameterized regime 时,亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。
May, 2021
通过探索误差空间,我们证明了最小值的平坦程度与泛化性能的相关性,并发现在函数空间中,最小值之间的距离更近略微平坦,通过优化算法可以连接彼此
Feb, 2022
对于机器学习模型的对称性和内部数据表示之间的关联,我们提出了本文中阐述的模型内联群的概念,通过相似实验,我们将内联群与具有相同架构的模型之间的隐藏状态相似性联系起来,从而更好地理解体系结构如何影响学习和预测过程。最后,我们猜测对于ReLU网络,内联群可能提供一种合理的解释为什么要在隐藏层中集中探索模型可解释性。
May, 2022
研究了前馈ReLU神经网络架构的参数空间,证明了对于没有窄于输入层的任何网络架构,都存在没有隐藏对称性的参数设置,并通过实验近似计算了不同网络架构在初始化时的功能维度。
Jun, 2023
探索深度神经网络(DNNs)的损失景观可以揭示其内在原理。我们的研究系统地探索了影响DNNs山谷对称性的因素,包括数据集、网络架构、初始化、超参数以及噪声的大小和方向。我们的主要观察表明,噪声与收敛点之间的符号一致性是山谷对称性的关键指标。从ReLU激活函数和softmax函数的角度可以解释这一有趣现象。我们的发现在模型融合方案中带来新的理解和应用,特别是插值单独模型的有效性与它们的符号一致性比例相关,并在联邦学习中实施符号对齐成为模型参数对齐的创新方法。
May, 2024
我们以平均场(Mean-Field)视角分析参数过多的人工神经网络在对称数据条件下的学习动态,探讨了采用随机梯度下降和可能的对称性增强技术(如数据增广、特征平均或等变体系结构)训练的广义浅层网络的学习动态,研究结果发现在对称数据的情况下,数据增广、特征平均和自由训练的模型在平均场动态下具有相同的行为。
May, 2024
本研究解决了深度神经网络(DNN)的训练中存在的对称性问题,提出将其作为等效的凸Lasso问题。研究表明,深层网络在拟合函数中自然偏向对称结构,且更大的深度可以实现多层次的对称性。这一发现对于理解深度网络的几何结构及其优化具有重要意义。
Oct, 2024