深度网络中的对称不变优化
本研究针对深度网络权重空间中的对称性问题,探讨了使用基于单位范数的约束来改善权重空间对称性问题的方法,并通过 MNIST 数据集上的实验证明该方法优于批量归一化方法且不会影响权重更新的计算性能。
Nov, 2015
通过梯度下降,我们研究了学习等变神经网络的问题。尽管已知的问题对称(“等变性”)被纳入神经网络中,经验上改善了从生物学到计算机视觉等领域的学习流程的性能,但是一项有关学习理论的研究表明,在相关统计查询模型(CSQ)中,实际学习浅层全连接(即非对称)网络的复杂度呈指数级增长。在这项工作中,我们提出了一个问题:已知的问题对称是否足以减轻通过梯度下降学习等变神经网络的基本困难?我们的答案是否定的。特别地,我们给出了浅层图神经网络、卷积网络、不变多项式和排列子群的框架平均网络的下界,这些下界在相关输入维度中都以超多项式或指数级增长。因此,尽管通过对称性注入了显著的归纳偏差,但通过梯度下降实际学习等变神经网络所代表的完整函数类仍然是困难的。
Jan, 2024
当存在连续对称性时,我们表征了随机梯度下降法(SGD)的学习动力学,它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类:其中一类对称性,SGD 自然地收敛于具有平衡和对齐梯度噪声的解;另一类对称性下,SGD 几乎总是发散。然后,我们证明了即使丢失函数中不存在对称性,我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的,仅依赖于对称性的存在,而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化,并可应用于常见的实际问题,如表示规范化,矩阵分解和预热的使用。
Feb, 2024
对称性在当代神经网络中普遍存在,本文揭示了损失函数对学习模型的学习行为影响的重要性,证明了损失函数的每个镜像对称性都会带来一种结构约束,当权重衰减或梯度噪音较大时,这种约束成为一种被偏爱的解决方案。作为直接的推论,我们展示了重新缩放对称性导致稀疏性,旋转对称性导致低秩性,置换对称性导致同质集成。然后,我们展示了理论框架可以解释神经网络中可塑性的丧失和各种崩溃现象,并提出如何使用对称性来设计能够以可微分方式实施硬约束的算法建议。
Sep, 2023
卷积将等变对称性编码到神经网络中,从而提高泛化性能。为了允许灵活的对称约束,我们改进了软等变性的参数化,并通过优化边缘似然来学习层面的等变性。我们展示了在图像分类任务上自动学习层面等变性的能力,获得了与硬编码对称性基线相当或更好的性能。
Oct, 2023
本文介绍了一种基于规范理论(gauge theory)的优化算法,用于加速表示学习模型在时间序列数据上的收敛速度,并提高诸如矩阵分解和词嵌入模型的解释性。此外,还介绍了一种将现代文字转换为历史词汇的应用实例。
Mar, 2018
机器学习在现代世界的成功主要取决于数据的丰富性。然而,在许多工业和科学问题中,数据量有限。通过具有对称性知识的等变神经网络,可以更有效地将机器学习方法应用于数据稀缺的科学问题,其中,我们建议结合具有对称性意识的不变体架构和扩张卷积堆栈是一种非常有效且易于实现的方法,可以在准确性方面较标准方法有可观的改进。我们将其应用于来自不同领域的具有代表性的物理问题:预测光子晶体的带隙和磁基态的网络逼近。建议的不变多尺度结构提高了网络的表达能力,在所有考虑的案例中表现更好。
Jun, 2024
在这项研究中,我们展示了权重对于执行 3D 网格分割的神经网络的对称性的影响,发现权重对称性可以获得额外的 1% 至 3% 的准确性,并且在至少有三个卷积层的神经网络中可以减少高达 8 倍的可训练参数的数量,而不会降低性能,并且即使在非常小的训练集中也适用。
Sep, 2023
这篇研究论文指出,当神经网络的权值与偏差在临界线的值上初始化时,可以加速训练速度,并且在未经训练的前馈网络中,具有物理系统的临界点展现出的自相似的特性。
Jun, 2023
通过学习解决权重对齐问题的新框架 Deep-Align,该研究提出了深度网络的排列对称性和权重排列两个基本对称性,并在多个网络架构和学习设置上进行了实验,结果显示 Deep-Align 能够产生与当前优化算法相比更好或相等的对齐,并可用作其他方法的初始化,以实现更好的解决方案和显著加速收敛速度。
Oct, 2023