Oct, 2019

想象价值梯度:基于模型的策略优化和可转移的潜在动态模型

TL;DR本文研究如何通过模型驱动的增强学习方法促进任务转移,提出了基于动作条件的预测模型学习算法,用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。