通过梯度下降学习可逆单元
本论文研究了使用可定义为 Lie 代数与 Lie 群相关联的单位矩阵组 U (n) 来描述参数化单元操作符,并通过 Lie 代数的基础定义了一个由 n^2 个实系数组成的单位矩阵空间,以解决循环神经网络训练中的梯度消失或爆炸问题。研究表明,这种参数化方法在学习任意单位操作符和解决长期记忆问题方面具有高效性。
Jul, 2016
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
研究神经网络在激活层和输出加权和层下的训练复杂性,并在高斯分布条件下证明 GD 收敛于最好逼近目标函数的多项式的最小误差,并发现 GD 在发现低频傅立叶分量之前要先发现高频分量。
May, 2018
本文研究在白化数据上,通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值,并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时,可保证线性收敛。此外,在输出维度为 1 的情况下,即标量回归,这些条件是满足的,并且在随机初始化方案下具有恒定的概率达到全局最优解。
Oct, 2018
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
研究非凸性学习任务中经验风险的精细属性(梯度)和群体对应属性的收敛速度以及收敛对优化的影响;提出矢量值 Rademacher 复杂性作为导出非凸问题梯度无维度一致收敛界的工具;给出了应用这些技术进行非凸广义线性模型和非凸健壮回归的批梯度下降方法的新分析,显示了使用任何找到近似稳定点的算法可以获得最优样本复杂度。
Oct, 2018
本文提出了一种基于对偶探索方法的普适梯度优化算法 UnderGrad,可以在无需先验知识的情况下,对包括具有适应性 Lipschitz 光滑性和随机梯度代价的问题进行高效求解。
Jun, 2022
本文介绍了一种名为 Impression GTD 的全新 GTD 算法,通过最小化期望 TD 更新的范数目标实现单时间尺度,并证明该算法的收敛速度至少为 O (1/t),甚至更快。同时,与现有的 GTD 算法相比,该算法在在线学习和离线学习问题中表现更快,具有比较稳定的步长范围。
Jul, 2023
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018