Oct, 2023

TD-MPC2:连续控制的可扩展、健壮世界模型

TL;DR本文介绍了TD-MPC2:一种改进的模型预测控制算法,通过在学得的隐式(无解码器)世界模型的潜空间中进行局部轨迹优化。我们展示了TD-MPC2在跨越4个不同任务领域的104个在线强化学习任务中相对于基准方案的显著改进,通过一组超参数实现了一致强大的结果。我们进一步展示了模型和数据规模的增加会提升代理程序的性能,并成功地训练了一个单一的3.17亿参数代理程序,执行了80个跨多个任务领域、体现和动作空间的任务。最后,我们对大型TD-MPC2代理程序的经验、机会和风险进行了总结。