通用强化模仿及其在基于视觉的自动驾驶中的应用

Nov, 2021

通用强化模仿及其在基于视觉的自动驾驶中的应用

GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving

Raphael Chekroun, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde

TL;DR本研究提出了一种名为 GRI 的新方法，将探索和专家数据的优点相结合，简单易实现。通过提出离线演示智能体的概念，将专家数据与在线探索智能体的经验同时处理，证明了该方法在基于视觉的城市道路场景下的自主驾驶和 Mujoco 连续控制任务上的有效性，并在 CARLA Leaderboard 上取得了第一名。

Abstract

deep reinforcement learning (DRL) has been demonstrated to be effective for several complex decision-making applications such as autonomous driving and robotics. However, DRL is notoriously limited by its high sa

deep reinforcement learning general reinforced imitation expert data autonomous driving off-policy rl algorithm

发现论文，激发创造

基于视觉的可控模仿强化学习在自动驾驶中的应用

本文提出基于 CIRL 和 DDPG 的深度强化学习方法能够在高保真车辆模拟器中，仅基于视觉输入实现驾驶任务，并相较于监督式模仿学习表现更优，特别地，文章为多控制信号专门设计自适应策略和奖励方案，并基于编码技术引导驾驶代理人在一定限制空间内探索，相较以往方法在 CARLA 数据集实验中显著提高了成功率。

Jul, 2018

基于图卷积的深度强化学习在混合交通环境下的多智能体决策

本研究提出了一种利用图神经网络和深度强化学习相结合的图强化学习方法，以提高自主车辆互动交通场景下的决策生成精度。在实验验证中，该方法能够提取交互情景特征，并生成更好的合作行为。

Jan, 2022

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

广义数据分布迭代

研究同时实现高样本效率和卓越绩效的深度强化学习模型，将挑战分解为两个经典强化学习问题，数据丰富性和探索 - 开发权衡，并通过对行为策略的能力和多样性进行显式建模和控制、采用单调数据分布优化技术进行选择 / 采样分布的精细和自适应控制等手段来同时解决这两个挑战，最终将这个过程整合到广义策略迭代中，提出了更为通用的广义数据分布迭代技术，并在 Arcade Learning Environment 上获得了超越 22 个人类世界纪录的最新性能。

Jun, 2022

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

基于视觉的机器人抓取的深度强化学习：一种离线策略方法的仿真比较评估

本文研究基于视觉的机器人抓取中的深度强化学习算法，提出了一个模拟的基准测试对齐机器人抓取任务，评估了基准测试任务的不同 Q 函数估计方法，结果表明简单方法可以成为流行算法的强有力竞争对手，此外还阐明了算法的相对权衡

Feb, 2018

逆强化学习与现实驾驶

利用学习规划和逆强化学习，本文通过一个轻量级和易于解释的安全过滤器来过滤生成的轨迹，使用一个得分模型对剩余轨迹进行评分，并使用最佳轨迹跟踪自动驾驶车辆的低级控制器。我们使用超过 500 小时的专家驾驶实例进行了实验验证，证明了我们的算法在高峰期的拉斯维加斯能够在各种复杂情况下实现完全自主驾驶的良好表现，并公开了该数据集以帮助未来的研究。

Jun, 2022

由特权到预测：面向城市驾驶的感觉动作强化学习

通过深度学习模型，我们研究了特权强化学习代理和感知运动代理在城市驾驶中的差异，以缩小二者之间的差距，并提出了逐步发展较不特权的强化学习代理的解决方案。我们还观察到离线数据集上训练的鸟瞰图模型在在线强化学习训练中存在分布不匹配的问题。通过在 CARLA 模拟环境中进行严格评估，我们揭示了强化学习中状态表示对自动驾驶的重要性，并指出了未解决的研究挑战。

Sep, 2023

引导元强化学习下的鲁棒驾驶策略学习

通过随机化基于交互的社交车辆的奖励函数，本研究引入了一种高效的方法来训练多样化的社交车辆驾驶策略作为单一的元策略，并提出了一种训练策略来增强自车驾驶策略的鲁棒性。该方法成功地学习到了在具有挑战性的未控制 T 字形交叉口情景中，对具有分布之外行为的社交车辆场景具有很好泛化性的自车驾驶策略。

Jul, 2023

通过专家指导的策略优化实现安全驾驶

研究者提出了一种基于专家支持的强化学习模式，其中引入了一个守护者来保障学习的过程安全，在保证足够探索性的同时，在危险时进行干预并演示正确行为以避免潜在的事故。使用约束优化技术来避免故意表现出危险行为欺骗专家，并使用离线强化学习技术从专家生成的部分演示中进行学习。试验表明，该方法在训练和测试时表现出更高的安全性，比基线方法在样本效率方面具有更高的性能，并保持对未知环境的一般性。

Oct, 2021