Jan, 2022

通过深度逆强化学习实现 MPC 的时空代价地图推断

TL;DR本文提出了一种新的 IRL 算法,通过学习人类示范的目标条件下的时空奖励函数,生成适合用于 MPC 的费用地图,以实现自动驾驶、车道保持和车道变换任务,并在 CARLA 模拟器中进行了测试。结果表明,相比于行为克隆、现有 RL 策略和基于学习的行为预测模型的 MPC 等基准方法,我们提出的方法具有更高的成功率。