Jun, 2024

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

TL;DR在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。