Jun, 2021
行为预期和动态模型:改进离线强化学习的性能和领域转移
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL
Catherine Cang, Aravind Rajeswaran, Pieter Abbeel, Michael Laskin
TL;DR本文提出了一种 Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线 RL 策略的性能和泛化能力,在 D4RL 离线 RL 基准测试中表现优异,且具有跨域泛化性能。