通过深度逆强化学习实现 MPC 的时空代价地图推断

Jan, 2022

通过深度逆强化学习实现 MPC 的时空代价地图推断

Spatiotemporal Costmap Inference for MPC via Deep Inverse Reinforcement Learning

Keuntaek Lee, David Isele, Evangelos A. Theodorou, Sangjae Bae

TL;DR本文提出了一种新的 IRL 算法，通过学习人类示范的目标条件下的时空奖励函数，生成适合用于 MPC 的费用地图，以实现自动驾驶、车道保持和车道变换任务，并在 CARLA 模拟器中进行了测试。结果表明，相比于行为克隆、现有 RL 策略和基于学习的行为预测模型的 MPC 等基准方法，我们提出的方法具有更高的成功率。

Abstract

It can be difficult to autonomously produce driver behavior so that it appears natural to other traffic participants. Through Inverse Reinforcement Learning (IRL), we can automate this process by learning the underlying reward function from human demonstrations. We propose a new IRL algorithm that learns a goal-conditioned spatiotemporal reward function. The

autonomous driving inverse reinforcement learning model predictive controllers lane keeping lane changing

发现论文，激发创造

逆强化学习与现实驾驶

利用学习规划和逆强化学习，本文通过一个轻量级和易于解释的安全过滤器来过滤生成的轨迹，使用一个得分模型对剩余轨迹进行评分，并使用最佳轨迹跟踪自动驾驶车辆的低级控制器。我们使用超过 500 小时的专家驾驶实例进行了实验验证，证明了我们的算法在高峰期的拉斯维加斯能够在各种复杂情况下实现完全自主驾驶的良好表现，并公开了该数据集以帮助未来的研究。

Jun, 2022

基于深高斯过程的逆强化学习

该论文提出了一种基于深度高斯过程模型的新逆向强化学习方法，可在少量演示情况下学习复杂的奖励结构，并通过最大熵学习框架与状态特征空间相链接。通过自行开发的非标准变分近似框架，可进行特征空间的近似贝叶斯处理，并防止过度拟合。在该模型中同时进行表示和逆向强化学习性能优于现有技术。已在标准基准测试中进行实验验证（“物体世界”、“高速公路驾驶”）以及新的基准测试（“二进制世界”）。

Dec, 2015

最大熵深度逆强化学习评估城市感知安全性

通过借鉴城市感知的专家评估政策，我们提出了一种新颖的基于 IRL 的框架来预测城市安全，并恢复相应的奖励函数，使用强化学习 (MDP) 来解决问题，并建立了一个基于众包的数据集 SmallCity 进行了研究。我们的结果表明，IRL 在这个领域有着广阔的前景。

Nov, 2022

使用逆强化学习和深度 Q 网络进行驾驶学习

提出一种使用深度 Q 网络进行逆向强化学习 (IRL) 来提取大状态空间问题中奖励的方法，并在基于模拟的自主驾驶场景中评估其性能。结果表明，经过几次学习后，模拟代理能够生成无碰撞的运动，并表现出人类般的变道行为。

Dec, 2016

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

使用平均奖励标准的逆强化学习

本文提出了一种基于平均奖励框架的逆强化学习方法，并通过研发一系列随机一阶方法用以有效减少计算复杂度，这些方法可用于解决平均奖励马尔可夫决策过程的子问题，并为对策镜像下降法提供支持。最终，我们在 MuJoCo 基准测试和其他控制任务中进行数值实验以验证分析。

May, 2023

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023

FP-IRL：基于 Fokker-Planck 的逆强化学习 —— 物理约束的马尔科夫决策过程方法

提出了一种基于 Fokker-Planck（FP）方程的新型物理意识逆强化学习算法 FP-IRL，可以同时推断转移和奖励函数，无需事先估计转移动态，适用于转移函数不可访问的情况

Jun, 2023

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022