通过梯度下降学习可逆单元

Jan, 2020

Learning Unitaries by Gradient Descent

Bobak Toussi Kiani, Seth Lloyd, Reevu Maity

TL;DR通过在交替操作序列的时间参数上应用梯度下降法，我们研究了学习 $U (d)$ 中的单位转换的难度。我们提供了数值证据表明，尽管损失景观非凸，但当序列包含 $d^2$ 个或更多参数时，梯度下降法总是收敛于目标齐次。收敛速度表明了一种 “计算相变”。当小于 $d^2$ 个参数时，梯度下降收敛于次优解，而当大于 $d^2$ 个参数时，梯度下降以指数方式收敛于最优解。

Abstract

We study the hardness of learning unitary transformations in $U(d)$ via gradient descent on time parameters of alternating operator sequences

unitary transformations gradient descent alternating operator sequences computational phase transition numerical evidence

发现论文，激发创造

利用 u (n) 辅助学习幺正算子

本论文研究了使用可定义为 Lie 代数与 Lie 群相关联的单位矩阵组 U (n) 来描述参数化单元操作符，并通过 Lie 代数的基础定义了一个由 n^2 个实系数组成的单位矩阵空间，以解决循环神经网络训练中的梯度消失或爆炸问题。研究表明，这种参数化方法在学习任意单位操作符和解决长期记忆问题方面具有高效性。

Jul, 2016

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

一层隐藏层神经网络的梯度下降：多项式收敛和 SQ 下界

研究神经网络在激活层和输出加权和层下的训练复杂性，并在高斯分布条件下证明 GD 收敛于最好逼近目标函数的多项式的最小误差，并发现 GD 在发现低频傅立叶分量之前要先发现高频分量。

May, 2018

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

（随机）梯度方法的统一最优分析

证明在 L - 平滑度条件下，随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差，且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.

Jul, 2019

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

非凸学习和优化的梯度均匀收敛性

研究非凸性学习任务中经验风险的精细属性（梯度）和群体对应属性的收敛速度以及收敛对优化的影响；提出矢量值 Rademacher 复杂性作为导出非凸问题梯度无维度一致收敛界的工具；给出了应用这些技术进行非凸广义线性模型和非凸健壮回归的批梯度下降方法的新分析，显示了使用任何找到近似稳定点的算法可以获得最优样本复杂度。

Oct, 2018

一种具有几乎不依赖维度的全局黑盒优化方法及其收敛速率保证

本文提出了一种基于对偶探索方法的普适梯度优化算法 UnderGrad，可以在无需先验知识的情况下，对包括具有适应性 Lipschitz 光滑性和随机梯度代价的问题进行高效求解。

Jun, 2022

一种仅使用一个步长的新渐变 TD 算法：使用 $L$-$λ$ 平滑性进行收敛速率分析

本文介绍了一种名为 Impression GTD 的全新 GTD 算法，通过最小化期望 TD 更新的范数目标实现单时间尺度，并证明该算法的收敛速度至少为 O (1/t)，甚至更快。同时，与现有的 GTD 算法相比，该算法在在线学习和离线学习问题中表现更快，具有比较稳定的步长范围。

Jul, 2023

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018