Jan, 2024

在连续状态 - 动作空间中驯服 “数据饥饿” 的强化学习稳定性

TL;DR我们介绍了一种分析连续状态 - 动作空间强化学习的新框架,并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性,涉及价值函数和 / 或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态 - 动作马尔科夫决策过程中得到满足,并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角,并突出了离线强化学习与迁移学习之间的联系。