Jun, 2021

行为预期和动态模型:改进离线强化学习的性能和领域转移

TL;DR本文提出了一种Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线RL策略的性能和泛化能力,在D4RL离线RL基准测试中表现优异,且具有跨域泛化性能。