Feb, 2021
COMBO: 保守的离线基于模型的策略优化
COMBO: Conservative Offline Model-Based Policy Optimization
TL;DR该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。