对称性,平坦极小值,以及梯度流守恒量
本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐,而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷,并证明在不对称山谷中,偏向平面的解决方案比确切的最小值更好地推广。此外,我们还发现,批量归一化(BN)似乎是不对称山谷产生的主要原因。
Feb, 2019
通过探索误差空间,我们证明了最小值的平坦程度与泛化性能的相关性,并发现在函数空间中,最小值之间的距离更近略微平坦,通过优化算法可以连接彼此
Feb, 2022
探索深度神经网络(DNNs)的损失景观可以揭示其内在原理。我们的研究系统地探索了影响 DNNs 山谷对称性的因素,包括数据集、网络架构、初始化、超参数以及噪声的大小和方向。我们的主要观察表明,噪声与收敛点之间的符号一致性是山谷对称性的关键指标。从 ReLU 激活函数和 softmax 函数的角度可以解释这一有趣现象。我们的发现在模型融合方案中带来新的理解和应用,特别是插值单独模型的有效性与它们的符号一致性比例相关,并在联邦学习中实施符号对齐成为模型参数对齐的创新方法。
May, 2024
本文主要研究神经网络中存在的局部极小值问题。针对两层神经网络,定义了其固有维度,并证明了有限的固有维度保证了超参数化的模型不存在局部极小值,而无限的固有维度意味着在某些数据分布下必然存在局部极小值。此外,尽管在一般情况下可能存在局部极小值,但其出现在低风险水平,并高概率地避免在超参数化的模型上。
Feb, 2018
本文通过组合分析的方式,对超参数化神经网络中对称引起的关键点进行了探讨,发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优,但是当 vastly overparameterized regime 时,亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。
May, 2021
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
对于两层神经网络在全局最小值附近的损失函数图景进行研究,确定了能够实现完美泛化的参数集,并完全描述了其梯度流动。通过新颖的技术,我们揭示了复杂的损失函数图景的一些简单特征,并揭示了模型、目标函数、样本和初始化对训练动态的不同影响。基于这些结果,我们还解释了为什么过度参数化的神经网络能够很好地泛化。
Sep, 2023
通过内在对称性的理论框架,使用有限差分法实现了在实践中使用的有限学习率的精确积分表达式来描述在任何数据集上通过深度学习训练出的当代网络体系结构的各种参数组合的学习动力学。
Dec, 2020
通过梯度下降,我们研究了学习等变神经网络的问题。尽管已知的问题对称(“等变性”)被纳入神经网络中,经验上改善了从生物学到计算机视觉等领域的学习流程的性能,但是一项有关学习理论的研究表明,在相关统计查询模型(CSQ)中,实际学习浅层全连接(即非对称)网络的复杂度呈指数级增长。在这项工作中,我们提出了一个问题:已知的问题对称是否足以减轻通过梯度下降学习等变神经网络的基本困难?我们的答案是否定的。特别地,我们给出了浅层图神经网络、卷积网络、不变多项式和排列子群的框架平均网络的下界,这些下界在相关输入维度中都以超多项式或指数级增长。因此,尽管通过对称性注入了显著的归纳偏差,但通过梯度下降实际学习等变神经网络所代表的完整函数类仍然是困难的。
Jan, 2024