Jun, 2021

行为预期和动态模型:改进离线强化学习的性能和领域转移

TL;DR本文提出了一种 Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线 RL 策略的性能和泛化能力,在 D4RL 离线 RL 基准测试中表现优异,且具有跨域泛化性能。