Bellman 残差是否为不良代理?
研究了马尔可夫决策过程情景下政策价值函数的线性逼近的投影方法。分别考虑了一步时序差分计算(TD(0))和 Bellman 残差(BR)最小化的两种流行方法,并描述了它们的性能优劣。最终,提出了一个统一的观点,揭示了零部件投影在 Bellman 等式上的作用。
Nov, 2010
我们研究了分布式离策略评估的问题,提出了一种基于期望扩展统计距离的方法来估计回报分布,并介绍了一种名为 Energy Bellman Residual Minimizer 的方法。我们在对可实现性的假设下建立了 EBRM 估计器的有限样本误差界,并通过模拟实验和与其他方法的比较验证了我们方法的优越性。
Feb, 2024
本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。
Apr, 2021
本文研究了值估计的梯度方法在强化学习中速度较慢的原因,提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法,并介绍了主要算法 RANS 及其在经典问题中的表现。
Jan, 2023
研究证明 Bellman 方程不适合用作测量价值函数准确度的代理,实证了两个现象: Bellman 误差的大小与真实价值函数的距离之间几乎没有关系,即使考虑所有状态 - 动作对;在有限数据情况下,Bellman 方程可以被无数次次最优解准确满足,而不需要改善价值函数的准确度。
Jan, 2022
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。
Jun, 2024
通过计算动态规划算子的 Bellman 残差,我们可以计算出随机最短路径问题解的次优性界限。在考虑到过渡成本为正的情况下,即使不是所有的策略都是正确的,我们也可以轻松地计算次优性界限。
Feb, 2012
提供了一种新的方法来训练演员 - 评论家框架中的评论家,使用新的状态 - 值函数逼近,并相对于平均值学习状态(响应地状态 - 动作对)的值,而非如传统的演员 - 评论家算法所学习的绝对值,这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进,特别是在奖励稀疏的任务中。
Oct, 2020