Dec, 2023
MICRO: 基于模型的离线强化学习与保守贝尔曼算子
MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator
Xiao-Yin Liu, Xiao-Hu Zhou, Guo-Tao Li, Hao Li, Mei-Jiang Gui...
TL;DR提出了一种新的基于模型的离线学习算法 MICRO,通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡,可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法,对敌对扰动也相当稳健。