NIPSDec, 2016

使用逆强化学习和深度 Q 网络进行驾驶学习

TL;DR提出一种使用深度 Q 网络进行逆向强化学习 (IRL) 来提取大状态空间问题中奖励的方法,并在基于模拟的自主驾驶场景中评估其性能。结果表明,经过几次学习后,模拟代理能够生成无碰撞的运动,并表现出人类般的变道行为。