使用参数对称性提高收敛和泛化性能
对深度学习中的参数对称性进行了实证研究,通过引入具有降低参数对称性的新型神经网络架构,采用两种可证明保证的方法对标准神经网络进行改进,进行了多任务的全面实验研究,发现参数对称性对模型的影响,包括线性模式连接性和贝叶斯神经网络训练速度和效果的提升。
May, 2024
本文介绍了一种基于规范理论(gauge theory)的优化算法,用于加速表示学习模型在时间序列数据上的收敛速度,并提高诸如矩阵分解和词嵌入模型的解释性。此外,还介绍了一种将现代文字转换为历史词汇的应用实例。
Mar, 2018
本文通过组合分析的方式,对超参数化神经网络中对称引起的关键点进行了探讨,发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优,但是当 vastly overparameterized regime 时,亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。
May, 2021
通过探索误差空间,我们证明了最小值的平坦程度与泛化性能的相关性,并发现在函数空间中,最小值之间的距离更近略微平坦,通过优化算法可以连接彼此
Feb, 2022
通过最大化目标函数水平集上的梯度范数,我们研究了一种叫做级别集传送的优化子程序,该程序旨在加速梯度方法。我们证明了当优化间隙很小时,级别集传送的梯度下降法具有比标准梯度下降法更快的子线性 / 线性收敛速率,但在凸函数满足 Hessian 稳定性时,级别集传送不会改善或恶化收敛速率。为了评估传送法的实际效果,我们开发了一种只需要 Hessian - 向量乘积的投影梯度类型方法,并利用该方法在各种学习问题上展示了具备传送法的梯度方法在性能上普遍优于标准版本。
Mar, 2024
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020
本文介绍了一种基于坐标变换的策略,以加速和改善机器学习优化算法的性能,有效减缓贫瘠高原和局部极小值对算法性能的影响,并在量子机器学习算法的基础上进行了验证和 benchmark,获得了显著的性能提升。
Apr, 2023
本文介绍了一种名为 ORB 的量子学习模型的最优参数结构,通过考虑问题哈密顿量的自同构群而形成这种理想参数结构,证实了在多个基态问题中 ORB 的表现要比文献里的电路结构更好。
Jul, 2022