基于梯度的价值估计的高效实现

Jan, 2023

Toward Efficient Gradient-Based Value Estimation

Arsalan Sharifnassab, Richard Sutton

TL;DR本文研究了值估计的梯度方法在强化学习中速度较慢的原因，提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法，并介绍了主要算法 RANS 及其在经典问题中的表现。

Abstract

gradient-based methods for value estimation in reinforcement learning have favorable stability properties, but they are typically much slower than Temporal Difference (TD) learning methods. We study the root caus

reinforcement learning gradient-based methods mean square bellman error gauss-newton direction rans

发现论文，激发创造

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

时间差分与残差梯度在神经网络逼近中的实验比较

我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优，同时我们还发现了强化学习和监督学习之间的一个关键差异，即小的 Bellman 残差误差可能对应一个不好的策略。我们进一步证明了 TD 中的缺失项是 RG 表现不佳的重要原因。我们的研究表明，深度 Q 学习的性能与训练动态密切相关，如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。

May, 2022

UDQL: 在离线强化学习中构建均方误差损失与最优值函数之间的桥梁

本文通过对均方误差进行理论分析，提供了过估计误差的理论上界，并提出了一种新的贝尔曼低估算子来对抗过估计现象，证明了其压缩特征。最后，基于低估算子和扩散策略模型提出了离线强化学习算法，实验证明我们的方法在 D4RL 任务上优于现有算法，验证了我们的理论分析和低估方法对离线强化学习任务的有效性。

Jun, 2024

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

基于价值偏差的最大似然估计在折扣线性 MDPs 中的模型驱动强化学习

我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程，该方法在理论上证明具有几乎最优的遗憾，并且在计算上更高效，我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。

Oct, 2023

平滑贝尔曼误差嵌入的尖锐分析

研究了使用 Smoothed Bellman Error Embedding 算法在 batch-mode 强化学习中的理论行为，并基于近期研究的工作，证明了该算法在使用的函数类表示能力和紧密的分布转移概念下，可以实现近乎最优的性能保证。

Jul, 2020

应用于深度学习的非凸随机 Bregman 近端梯度方法

研究一系列随机 Bregman 近端梯度法（SBPG）方法，用于训练具有非 Lipschitz 梯度的非凸目标函数，及应用于神经网络训练中具有多项式内核函数的深度神经网络的优化算法。证明了 SBPG 及其动量版本（MSBPG）在非凸优化问题中有很好的收敛性，提出了 MSBPG 解决大规模优化中随机梯度下降法的一些不足。

Jun, 2023

关于广义贝尔曼方程和时间差分学习

该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用，提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差，通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。

Apr, 2017

学习具有低基本 Bellman 误差的近最优策略

研究在近似线性行动价值函数的情况下，基于低内在 Bellman 误差的探索问题，给出了一种算法，其高概率的遗憾上界与特征维数和 Bellman 误差有关，同时将其与先前的工作进行了比较，在线性 MDP 的情况下，证明了这个算法具有统计效率。

Feb, 2020

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017