TDprop: Jacobi 预处理有助于时序差分学习吗？

ICMLJul, 2020

TDprop: Jacobi 预处理有助于时序差分学习吗？

TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?

Joshua Romoff, Peter Henderson, David Kanaa, Emmanuel Bengio, Ahmed Touati...

TL;DR本文研究 Jacobi 预处理在考虑时变差分学习 (TD) 的自适应优化中是否有助于提高性能。通过研究 TDprop 方法并进行理论分析和深度强化学习实验，我们发现适当的 Jacobi 预处理可以改善 Deep RL 中的优化方法，但不一定总是优于 SGD。

Abstract

We investigate whether jacobi preconditioning, accounting for the bootstrap term in temporal difference (TD) learning, can help boost performance of adaptive optimizers. Our method, →

jacobi preconditioning tdprop adaptive optimizers deep rl experiments bootstrap term

发现论文，激发创造

基于协方差矩阵预处理的深度神经网络自适应学习率

本文提出了一种名为 SDProp 的自适应学习率算法，通过协方差矩阵预处理来有效处理由随机优化引起的噪声，该算法针对各种神经网络具有比 RMSProp 及其变体更高的效率和有效性。

May, 2016

曲率信息的 SGD：通过通用李群预条件器

提出了一种新的方法，通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息，类似于 BFGS 算法，加速随机梯度下降（SGD）。该方法涉及两个预条件器：一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性，我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程，而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此，参数更新的学习率和预条件器拟合的步长在自然数值化，它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向，且计算开销较低。我们证明，在多个现代深度学习架构上，基于预条件的 SGD（PSGD）在视觉，自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。

Feb, 2024

非凸优化的平衡自适应学习率

该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法：ESGD，与 RMSProp 相比收敛速度更快，在非凸问题上表现更好。

Feb, 2015

并行学习的随机块对角线预处理

本文研究了具有块对角形式的预处理矩阵的梯度优化方法。作者证明，随机分配坐标在优化过程中可以显著提高这些方法的收敛性能，并在各种传统机器学习任务中进行了实证验证。从实现的角度来看，块可分离的模型非常适合并行化，当共享内存可用时，随机化可以在现有方法的基础上非常有效地实现来提高收敛速度。

Jun, 2020

深度神经网络的预条件随机梯度 Langevin 动力学

本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法，在深度神经网络的训练中可以解决参数空间的病态和过拟合问题，并且在逻辑回归，前馈神经网络和卷积神经网络等模型上，表现出了最先进的性能。

Dec, 2015

近端梯度时序差分学习：具有多项式样本复杂度的稳定强化学习

本文介绍了近端梯度时序差分学习，通过引入原始 - 对偶鞍点目标函数，提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法，并提出了一种名为 GTD2-MP 的加速算法，使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现有最小二乘 TD 方法相比的优越性能。

Jun, 2020

预处理随机梯度下降

本文提出了一种新的方法，通过估计一个预条件器来加速随机梯度下降算法的收敛速度，适用于凸性和非凸性优化，具有稳定梯度降噪的效果，并且经过了大规模问题的有效预条件估计验证，可以在无需调整的情况下，高效解决深度神经网络等复杂问题

Dec, 2015

利用压缩更新的时序差分学习：误差反馈与强化学习相遇

本文研究了带有压缩算子的强化学习过程对经典时间差分学习算法的影响，并证明了在误差反馈机制的作用下，以及与线性函数逼近和马尔可夫采样一起使用时，压缩的时间差分算法可以与 SGD 相似地具有非渐近理论保证。此外，本文还扩展了结果，提出了多智能体 TD 学习的线性收敛速度快速提升的证明。

Jan, 2023

一种强调的离线时序差分学习方法

本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能，并且提出了一种新的增强 TD (λ) 算法，相较于之前的方法，它更简单易用，只有一个学习参数向量和一个步长参数，含有状态相关折扣函数和自举函数，并且能够根据需要确定不同状态的精确定价程度。

Mar, 2015

引导协变移位进行深度强化学习的离线策略

本文介绍了一种针对强化学习中离线学习的校正方法（COP-TD），并通过引入折扣因子解决了非线性函数近似中的问题，进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚，此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。

Jan, 2019