基于梯度的价值估计的高效实现
本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。
Apr, 2021
我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的 Bellman 残差误差可能对应一个不好的策略。我们进一步证明了 TD 中的缺失项是 RG 表现不佳的重要原因。我们的研究表明,深度 Q 学习的性能与训练动态密切相关,如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。
May, 2022
本文通过对均方误差进行理论分析,提供了过估计误差的理论上界,并提出了一种新的贝尔曼低估算子来对抗过估计现象,证明了其压缩特征。最后,基于低估算子和扩散策略模型提出了离线强化学习算法,实验证明我们的方法在 D4RL 任务上优于现有算法,验证了我们的理论分析和低估方法对离线强化学习任务的有效性。
Jun, 2024
本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题,其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证,并分析了算法的样本复杂度。经验上,我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。
Dec, 2017
我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程,该方法在理论上证明具有几乎最优的遗憾,并且在计算上更高效,我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。
Oct, 2023
研究了使用 Smoothed Bellman Error Embedding 算法在 batch-mode 强化学习中的理论行为,并基于近期研究的工作,证明了该算法在使用的函数类表示能力和紧密的分布转移概念下,可以实现近乎最优的性能保证。
Jul, 2020
研究一系列随机 Bregman 近端梯度法(SBPG)方法,用于训练具有非 Lipschitz 梯度的非凸目标函数,及应用于神经网络训练中具有多项式内核函数的深度神经网络的优化算法。证明了 SBPG 及其动量版本(MSBPG)在非凸优化问题中有很好的收敛性,提出了 MSBPG 解决大规模优化中随机梯度下降法的一些不足。
Jun, 2023
该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
Apr, 2017
研究在近似线性行动价值函数的情况下,基于低内在 Bellman 误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和 Bellman 误差有关,同时将其与先前的工作进行了比较,在线性 MDP 的情况下,证明了这个算法具有统计效率。
Feb, 2020
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017