使用参数对称性提高收敛和泛化性能

May, 2023

使用参数对称性提高收敛和泛化性能

Improving Convergence and Generalization Using Parameter Symmetries

Bo Zhao, Robert M. Gower, Robin Walters, Rose Yu

TL;DR研究发现，基于对称性变换的 teleportation 算法加速了优化，并提高了泛化性能。同时发现，在不同曲率下进行 teleporting 到 minima 有助于提高泛化性能。此外，在优化算法和基于优化的元学习中集成 teleportation 都能提高收敛性。

Abstract

In overparametrized models, different values of the parameters may result in the same loss value. parameter space symmetries are transformations that change the model parameters but leave the loss invariant.

overparametrized models parameter space symmetries teleportation optimization generalization

发现论文，激发创造

对称性，平坦极小值，以及梯度流守恒量

通过使用激活函数的同变性并将其推广到非线性神经网络，找到了一些全局最小值的低误差谷，该方法可以提高鲁棒性，并提供了有关初始化影响的见解。

Oct, 2022

神经参数的对称性或不对称性的实证影响

对深度学习中的参数对称性进行了实证研究，通过引入具有降低参数对称性的新型神经网络架构，采用两种可证明保证的方法对标准神经网络进行改进，进行了多任务的全面实验研究，发现参数对称性对模型的影响，包括线性模式连接性和贝叶斯神经网络训练速度和效果的提升。

May, 2024

优化具有连续对称性破缺模型的方法改进

本文介绍了一种基于规范理论（gauge theory）的优化算法，用于加速表示学习模型在时间序列数据上的收敛速度，并提高诸如矩阵分解和词嵌入模型的解释性。此外，还介绍了一种将现代文字转换为历史词汇的应用实例。

Mar, 2018

超参数神经网络中的损失景观几何：对称性和不变性

本文通过组合分析的方式，对超参数化神经网络中对称引起的关键点进行了探讨，发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优，但是当 vastly overparameterized regime 时，亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。

May, 2021

环面上的深度神经网络：消除对称性揭示平衡点结构的几何形态

通过探索误差空间，我们证明了最小值的平坦程度与泛化性能的相关性，并发现在函数空间中，最小值之间的距离更近略微平坦，通过优化算法可以连接彼此

Feb, 2022

对称变换的生成模型

构建一个能够明确捕捉数据中对称性的生成模型，以便以可解释的方式学习存在的对称性，并结合现有生成模型提高边际测试日志似然和对数据稀疏化的鲁棒性。

Mar, 2024

水平集传送：优化视角

通过最大化目标函数水平集上的梯度范数，我们研究了一种叫做级别集传送的优化子程序，该程序旨在加速梯度方法。我们证明了当优化间隙很小时，级别集传送的梯度下降法具有比标准梯度下降法更快的子线性 / 线性收敛速率，但在凸函数满足 Hessian 稳定性时，级别集传送不会改善或恶化收敛速率。为了评估传送法的实际效果，我们开发了一种只需要 Hessian - 向量乘积的投影梯度类型方法，并利用该方法在各种学习问题上展示了具备传送法的梯度方法在性能上普遍优于标准版本。

Mar, 2024

通过神经元对齐优化模式连接性

本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响，该框架考虑了网络权重置换的影响，提出了称为神经元对齐的廉价启发式方法来近似最优置换，从而证明了该方法在模式连通性方面的实际效果优越。

Sep, 2020

通过坐标变换改进梯度方法：应用于量子机器学习

本文介绍了一种基于坐标变换的策略，以加速和改善机器学习优化算法的性能，有效减缓贫瘠高原和局部极小值对算法性能的影响，并在量子机器学习算法的基础上进行了验证和 benchmark，获得了显著的性能提升。

Apr, 2023

将空间对称性纳入参数化量子电路以加速训练

本文介绍了一种名为 ORB 的量子学习模型的最优参数结构，通过考虑问题哈密顿量的自同构群而形成这种理想参数结构，证实了在多个基态问题中 ORB 的表现要比文献里的电路结构更好。

Jul, 2022