Jul, 2024

PWM:大型世界模型的策略学习

TL;DR通过使用大规模多任务环境模型进行策略学习,我们引入了一种名为 Policy learning with large World Models (PWM) 的新型基于模型的强化学习算法,对具有多种实现方式的多任务进行连续控制策略的学习。