Mar, 2025

自引导模型预测控制

TL;DR本文解决了现有无模型方式在复杂任务中学习策略和估计价值不准确的问题。我们提出了一种新颖的自引导模型预测控制算法(BMPC),通过模仿模型预测控制专家来学习网络策略,并结合基于模型的时序差分学习来提升价值估计和控制效率。研究表明,BMPC在多种连续控制任务中表现优越,尤其是在高维运动任务中显著提高了数据效率和训练稳定性。