Oct, 2023

自主赛车的极限探索:最优控制与强化学习

TL;DR本文研究如何为一个敏捷移动机器人设计一个控制系统,重点研究了一项具有挑战性的场景:自主无人机赛车。我们证明了在这个场景中,通过强化学习(RL)训练的神经网络控制器优于最优控制(OC)方法。我们的研究表明,RL 胜过 OC 的基本优势不是在于更好地优化了其目标,而是优化了一个更好的目标。RL 可以直接优化任务级目标,并能够利用领域随机化来应对模型不确定性,从而发现更稳健的控制响应。本研究对于推动敏捷机器人的最大性能具有重要意义,并阐明了 RL 和 OC 在机器人控制中的作用。