逆强化学习与现实驾驶

Jun, 2022

Driving in Real Life with Inverse Reinforcement Learning

Tung Phan-Minh, Forbes Howington, Ting-Sheng Chu, Sang Uk Lee, Momchil S. Tomov...

TL;DR利用学习规划和逆强化学习，本文通过一个轻量级和易于解释的安全过滤器来过滤生成的轨迹，使用一个得分模型对剩余轨迹进行评分，并使用最佳轨迹跟踪自动驾驶车辆的低级控制器。我们使用超过 500 小时的专家驾驶实例进行了实验验证，证明了我们的算法在高峰期的拉斯维加斯能够在各种复杂情况下实现完全自主驾驶的良好表现，并公开了该数据集以帮助未来的研究。

Abstract

In this paper, we introduce the first learning-based planner to drive a car in dense, urban traffic using inverse reinforcement learning (IRL). Our planner, DriveIRL, generates a diverse set of →

learning-based planner inverse reinforcement learning trajectory proposals self-driving vehicle real-world performance

发现论文，激发创造

使用逆强化学习和深度 Q 网络进行驾驶学习

提出一种使用深度 Q 网络进行逆向强化学习 (IRL) 来提取大状态空间问题中奖励的方法，并在基于模拟的自主驾驶场景中评估其性能。结果表明，经过几次学习后，模拟代理能够生成无碰撞的运动，并表现出人类般的变道行为。

Dec, 2016

基于层次逆强化学习的交互式驾驶行为概率预测

讨论自动驾驶车辆如何通过基于层次逆强化学习的概率预测方法，准确预测周围车辆的行为并进行规划，以此应对人类行为的不确定性和交互作用。

Sep, 2018

基于视觉的可控模仿强化学习在自动驾驶中的应用

本文提出基于 CIRL 和 DDPG 的深度强化学习方法能够在高保真车辆模拟器中，仅基于视觉输入实现驾驶任务，并相较于监督式模仿学习表现更优，特别地，文章为多控制信号专门设计自适应策略和奖励方案，并基于编码技术引导驾驶代理人在一定限制空间内探索，相较以往方法在 CARLA 数据集实验中显著提高了成功率。

Jul, 2018

最大熵深度逆强化学习评估城市感知安全性

通过借鉴城市感知的专家评估政策，我们提出了一种新颖的基于 IRL 的框架来预测城市安全，并恢复相应的奖励函数，使用强化学习 (MDP) 来解决问题，并建立了一个基于众包的数据集 SmallCity 进行了研究。我们的结果表明，IRL 在这个领域有着广阔的前景。

Nov, 2022

自主 Formula SAE 车辆的局部路径跟踪的深度强化学习

使用深度强化学习（DRL）和逆强化学习（IRL）将局部观察到的锥体位置映射到期望的转向角度以进行赛道跟踪。两种先进算法，软演员批评（SAC）和对抗逆强化学习（AIRL），在代表性模拟中训练模型。在仿真和现实世界中进行的测试表明，这两种算法都可以成功训练用于局部路径跟踪的模型。提出了未来工作的建议，以使这些模型能够适用于完整的 Formula:SAE 车辆。

Jan, 2024

通过深度逆强化学习实现 MPC 的时空代价地图推断

本文提出了一种新的 IRL 算法，通过学习人类示范的目标条件下的时空奖励函数，生成适合用于 MPC 的费用地图，以实现自动驾驶、车道保持和车道变换任务，并在 CARLA 模拟器中进行了测试。结果表明，相比于行为克隆、现有 RL 策略和基于学习的行为预测模型的 MPC 等基准方法，我们提出的方法具有更高的成功率。

Jan, 2022

闭环中学习真实交通代理

使用闭环模拟学习方法 RTR，在模拟和真实数据集中训练交通仿真策略，以提高交通规则遵守性和仿真的真实性。

Nov, 2023

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023

使用无模型强化学习在密集交通中驾驶

本研究使用深度强化学习来生成一种连续控制规划方案，让自动驾驶汽车在拥挤的道路上实现车道变换，并与基于模型预测控制算法进行对比测试。

Sep, 2019

Google Maps 中的大规模可扩展反向强化学习

本文提出了一种基于逆强化学习的新方法（RHIP），通过图形压缩、并行处理和基于特征向量的问题初始化等一系列方法，成功地解决了全局比例规模难题，并在实际交通环境中实现了更可持续的交通方案（例如，路线安全性），获得了全局路线质量的 16-24％的改善。

May, 2023