Bellman 残差是否为不良代理？

NIPSJun, 2016

Is the Bellman residual a bad proxy?

Matthieu Geist, Bilal Piot, Olivier Pietquin

TL;DR该研究旨在理论上和实证上比较强化学习的两个标准最优化标准，并提出了一种最小化 Bellman 残差的新方法来代替通常的最大化平均值的方法，实验表明直接最大化平均值比 Bellman 残差更好，这表明值基强化学习中通常使用的 Bellman 残差最小化不是一个很好的策略优化代理。

Abstract

This paper aims at theoretically and empirically comparing two standard optimization criteria for reinforcement learning: i) maximization of the mean value and ii) minimization of the →

reinforcement learning optimization criteria policy search algorithms bellman residual value-based reinforcement learning

发现论文，激发创造

计算时间差异的定点还是最小化贝尔曼残差？统一的斜投影视角

研究了马尔可夫决策过程情景下政策价值函数的线性逼近的投影方法。分别考虑了一步时序差分计算（TD（0））和 Bellman 残差（BR）最小化的两种流行方法，并描述了它们的性能优劣。最终，提出了一个统一的观点，揭示了零部件投影在 Bellman 等式上的作用。

Nov, 2010

利用贝尔曼残差最小化进行分布式离策略评估

我们研究了分布式离策略评估的问题，提出了一种基于期望扩展统计距离的方法来估计回报分布，并介绍了一种名为 Energy Bellman Residual Minimizer 的方法。我们在对可实现性的假设下建立了 EBRM 估计器的有限样本误差界，并通过模拟实验和与其他方法的比较验证了我们方法的优越性。

Feb, 2024

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

基于梯度的价值估计的高效实现

本文研究了值估计的梯度方法在强化学习中速度较慢的原因，提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法，并介绍了主要算法 RANS 及其在经典问题中的表现。

Jan, 2023

为什么要相信贝尔曼？贝尔曼误差不是价值误差的良好替代品

研究证明 Bellman 方程不适合用作测量价值函数准确度的代理，实证了两个现象: Bellman 误差的大小与真实价值函数的距离之间几乎没有关系，即使考虑所有状态 - 动作对；在有限数据情况下，Bellman 方程可以被无数次次最优解准确满足，而不需要改善价值函数的准确度。

Jan, 2022

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

随机最短路径问题的次优解界

通过计算动态规划算子的 Bellman 残差，我们可以计算出随机最短路径问题解的次优性界限。在考虑到过渡成本为正的情况下，即使不是所有的策略都是正确的，我们也可以轻松地计算次优性界限。

Feb, 2012

利用残差方差在深度策略梯度中学习价值函数

提供了一种新的方法来训练演员 - 评论家框架中的评论家，使用新的状态 - 值函数逼近，并相对于平均值学习状态（响应地状态 - 动作对）的值，而非如传统的演员 - 评论家算法所学习的绝对值，这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进，特别是在奖励稀疏的任务中。

Oct, 2020

泛用效用的强化学习变分策略梯度方法

该研究通过引入泛函的方法，提出了一种新的策略梯度算法，用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题，并证明了其全局收敛性和收敛速度。

Jul, 2020