Oct, 2021

基于逆向模型想象的离线强化学习

TL;DR针对离线强化学习模型的学习策略和给定数据集之间的分布变化这一难题,提出了一种新的基于模型的离线强化学习框架,名为ROMI,它通过学习一个反向动力学模型和一种新颖的反向策略,可以在离线数据集内生成无风险 imagination,并启用 model-free 策略学习和保守性的泛化。实证结果表明,该方法能够生成更为保守的行为,并取得最先进的离线强化学习基准任务的表现。