Jul, 2021

MHER: 基于模型的事后经验回放

TL;DR通过利用环境动态生成虚拟实现目标的模型相关再标记方法,本文提出了模型 (MHER)。模型同时执行强化学习和监督学习来实现高效的政策改进,通过实验在多个基点任务和模拟机器人环境中显示出比以前的 model-free 和 model-based 多目标方法具有明显更高的样本效率。