Jun, 2022

逆强化学习与现实驾驶

TL;DR利用学习规划和逆强化学习,本文通过一个轻量级和易于解释的安全过滤器来过滤生成的轨迹,使用一个得分模型对剩余轨迹进行评分,并使用最佳轨迹跟踪自动驾驶车辆的低级控制器。我们使用超过 500 小时的专家驾驶实例进行了实验验证,证明了我们的算法在高峰期的拉斯维加斯能够在各种复杂情况下实现完全自主驾驶的良好表现,并公开了该数据集以帮助未来的研究。