Oct, 2023

深度模型预测优化

TL;DR机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为 “Deep Model Predictive Optimization” 的方法,通过经验直接学习 MPC 优化算法的内环,针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估,DMPO 在计算预算下提高了性能,并且比基线的 MPC 算法在样本数量和端到端策略训练(MFRL)方面分别提高了 27% 和 19%。此外,由于 DMPO 需要更少的样本,它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时,DMPO 能够零 - shot 调适,同时仍然优于所有基线测试结果。