Dec, 2023

基于梯度的世界模型规划

TL;DR人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型,优于纯粹的基于策略的方法,这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。