优化具有连续对称性破缺模型的方法改进
通过将对称性破缺的场论应用于损失函数存在连续对称性而被随机初始化破缺的机器学习模型中,我们展示了在时间序列模型中的 “带电” 嵌入矢量的规范理论,利用超导和对称性破缺在时间表示学习中之间的相似性,使得损失函数规范不变可以加速模型收敛。
Jul, 2019
当存在连续对称性时,我们表征了随机梯度下降法(SGD)的学习动力学,它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类:其中一类对称性,SGD 自然地收敛于具有平衡和对齐梯度噪声的解;另一类对称性下,SGD 几乎总是发散。然后,我们证明了即使丢失函数中不存在对称性,我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的,仅依赖于对称性的存在,而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化,并可应用于常见的实际问题,如表示规范化,矩阵分解和预热的使用。
Feb, 2024
本文提出了两种基于对称不变梯度的权重更新方式,使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上,我们的实验证据表明这些更新有效,并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。
Nov, 2015
提出了一种基于记忆的、适合于在线连续学习的、使用最大后验估计原则学习单元球上分布的表示学习技术,其特点是通过固定方向来提高学习模型的 “健壮性”,并且可以适应于大规模的模型以及具有模糊边界的任务场景并取得了比现有技术更好的性能。
Jun, 2023
对称性在当代神经网络中普遍存在,本文揭示了损失函数对学习模型的学习行为影响的重要性,证明了损失函数的每个镜像对称性都会带来一种结构约束,当权重衰减或梯度噪音较大时,这种约束成为一种被偏爱的解决方案。作为直接的推论,我们展示了重新缩放对称性导致稀疏性,旋转对称性导致低秩性,置换对称性导致同质集成。然后,我们展示了理论框架可以解释神经网络中可塑性的丧失和各种崩溃现象,并提出如何使用对称性来设计能够以可微分方式实施硬约束的算法建议。
Sep, 2023
我们开发了一个统一的框架,通过线性和张量值函数的组合表达在各种子群中对称不变的函数,利用多臂老虎机算法和梯度下降优化线性和张量值函数,从而学习出对应的对称性。通过图像数字求和和多项式回归任务的实验,证明了我们方法的有效性。
Sep, 2023
对于建模原子尺度物质性质的模型,以对称性作为归纳偏差普遍被采用。然而,非对称模型也能从数据中学习对称性,并对模型准确性有益。本研究测试了一个仅近似满足旋转不变性的模型在模拟气相、液态和固态水的实际场景中的性能,发现其在插值、大体积情况下几乎无影响。即使在外推气相预测中,该模型仍然非常稳定,尽管有对称性伪迹存在。我们还讨论了系统减小对称性破缺程度的策略,并评估其对观测量收敛性的影响。
Jun, 2024
本文主要介绍了强化对比学习得到的表示的不变性的方法,通过引入新的正则化器、特征平均法和可微分生成过程,对旋转等变性进行限制和控制,提高了表示在后续任务中的表现和鲁棒性。
Oct, 2020
研究发现,基于对称性变换的 teleportation 算法加速了优化,并提高了泛化性能。同时发现,在不同曲率下进行 teleporting 到 minima 有助于提高泛化性能。此外,在优化算法和基于优化的元学习中集成 teleportation 都能提高收敛性。
May, 2023