Dec, 2023

MICRO: 基于模型的离线强化学习与保守贝尔曼算子

TL;DR提出了一种新的基于模型的离线学习算法 MICRO,通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡,可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法,对敌对扰动也相当稳健。