Oct, 2021

基于价值感知的情节记忆离线强化学习

TL;DR本文提出了一种名为Value-based Episodic Memory的离线强化学习方法,该方法使用V-function代替Q-function,并引入Expectile V-Learning和implicit planning来提高性能。在D4RL基准测试中,该方法在大多数任务中实现了优越的性能。