Oct, 2023

无需贝尔曼完备性:基于模型的回归条件监督学习的轨迹拼接方法

TL;DR在本文中,我们展示了基于回报条件的监督学习(RCSL)的离策略学习技术如何在具有放松了的 Bellman 完备性条件下收敛,使用两层多层感知机作为函数逼近器时实现了与动态规划方法相媲美的性能,并提出了 MBRCSL 框架,通过利用学习的动力学模型和前向采样来实现轨迹拼接,从而避免了所有动态规划算法中困扰的 Bellman 完备性需求。