深度网络中对称性的理解
本文提出了两种基于对称不变梯度的权重更新方式,使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上,我们的实验证据表明这些更新有效,并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。
Nov, 2015
通过梯度下降,我们研究了学习等变神经网络的问题。尽管已知的问题对称(“等变性”)被纳入神经网络中,经验上改善了从生物学到计算机视觉等领域的学习流程的性能,但是一项有关学习理论的研究表明,在相关统计查询模型(CSQ)中,实际学习浅层全连接(即非对称)网络的复杂度呈指数级增长。在这项工作中,我们提出了一个问题:已知的问题对称是否足以减轻通过梯度下降学习等变神经网络的基本困难?我们的答案是否定的。特别地,我们给出了浅层图神经网络、卷积网络、不变多项式和排列子群的框架平均网络的下界,这些下界在相关输入维度中都以超多项式或指数级增长。因此,尽管通过对称性注入了显著的归纳偏差,但通过梯度下降实际学习等变神经网络所代表的完整函数类仍然是困难的。
Jan, 2024
对称性在当代神经网络中普遍存在,本文揭示了损失函数对学习模型的学习行为影响的重要性,证明了损失函数的每个镜像对称性都会带来一种结构约束,当权重衰减或梯度噪音较大时,这种约束成为一种被偏爱的解决方案。作为直接的推论,我们展示了重新缩放对称性导致稀疏性,旋转对称性导致低秩性,置换对称性导致同质集成。然后,我们展示了理论框架可以解释神经网络中可塑性的丧失和各种崩溃现象,并提出如何使用对称性来设计能够以可微分方式实施硬约束的算法建议。
Sep, 2023
当存在连续对称性时,我们表征了随机梯度下降法(SGD)的学习动力学,它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类:其中一类对称性,SGD 自然地收敛于具有平衡和对齐梯度噪声的解;另一类对称性下,SGD 几乎总是发散。然后,我们证明了即使丢失函数中不存在对称性,我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的,仅依赖于对称性的存在,而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化,并可应用于常见的实际问题,如表示规范化,矩阵分解和预热的使用。
Feb, 2024
卷积将等变对称性编码到神经网络中,从而提高泛化性能。为了允许灵活的对称约束,我们改进了软等变性的参数化,并通过优化边缘似然来学习层面的等变性。我们展示了在图像分类任务上自动学习层面等变性的能力,获得了与硬编码对称性基线相当或更好的性能。
Oct, 2023
该研究提出将对称性引入卷积神经网络中,从而提高其在预测物理动态方面的准确性和泛化能力,该方法在实验和理论上都表现出了对分布转换的鲁棒性,并且在雷利 - 贝纳对流和真实世界的海洋表现上比传统方法更优秀。
Feb, 2020
这篇研究论文指出,当神经网络的权值与偏差在临界线的值上初始化时,可以加速训练速度,并且在未经训练的前馈网络中,具有物理系统的临界点展现出的自相似的特性。
Jun, 2023
研究了前馈 ReLU 神经网络架构的参数空间,证明了对于没有窄于输入层的任何网络架构,都存在没有隐藏对称性的参数设置,并通过实验近似计算了不同网络架构在初始化时的功能维度。
Jun, 2023
本研究提出了三种算法,用于将一个模型的单元重新排列以与参考模型对齐,以便在权重空间中合并两个模型,实验结果表明了单一流域现象在各种模型架构和数据集中的存在,并讨论了模型宽度和训练时间与模式连通性的相关现象,同时证明了单流域理论的一个反例。
Sep, 2022