使用无模型强化学习在安全驾驶情境中自动学习备用策略

ICMLApr, 2022

使用无模型强化学习在安全驾驶情境中自动学习备用策略

Automatically Learning Fallback Strategies with Model-Free Reinforcement Learning in Safety-Critical Driving Scenarios

Ugo Lecerf, Christelle Yemdji-Tchassi, Sébastien Aubert, Pietro Michiardi

TL;DR本文介绍了一种无模型的强化学习代理来捕捉环境中多种行为方式的方法，引入额外的伪奖励项来鼓励探索具有不同状态空间的区域，并将此应用于自动驾驶场景，以学习备用策略并展示其可行性。

Abstract

When learning to behave in a stochastic environment where safety is critical, such as driving a vehicle in traffic, it is natural for human drivers to plan fallback strategies as a backup to use if ever there is an unexpected change in the environment. Knowing to expect the unexpected,

fallback strategies autonomous vehicles reinforcement learning exploration state-space

发现论文，激发创造

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

自主车辆上的安全强化学习

本研究探讨了如何通过预测来约束探索，从而实现强化学习在自动驾驶中的安全学习。

Sep, 2019

自主训练自动驾驶车辆的自主算法

基于强化学习的自主车辆训练算法，最小化人为干预，通过学习进展实时调整训练过程，安全地重置车辆状态，取得更好的驾驶性能和较少的人工重置。

May, 2024

城市自主驾驶的无模型深度强化学习

本文提出了一个在复杂城市自主驾驶场景下使用无模型深度强化学习的框架，并在高清晰度驾驶模拟器中进行了验证。结果表明，与基线相比，我们的方法可以很好地解决任务，且表现显著优异。

Apr, 2019

使用无模型强化学习在密集交通中驾驶

本研究使用深度强化学习来生成一种连续控制规划方案，让自动驾驶汽车在拥挤的道路上实现车道变换，并与基于模型预测控制算法进行对比测试。

Sep, 2019

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

四足行走安全强化学习

本文提出了一种安全的强化学习框架，用于设计控制策略，以确保腿部运动的安全，同时利用无模型的强化学习进行学习任务。在此框架基础上，本文进行了四项步态运动实验，并实现了显著的提升，包括节能、稳定性和动作变化。

Mar, 2022

通过人类示范辅助强化学习在自动驾驶车道变换中的安全决策

通过将人类驾驶员的决策作为安全演示进行学习，本研究提出的基于强化学习的决策策略在实践中可显著提高自主驾驶汽车的安全性。

Jul, 2022

通过强化学习进行交通流随机化的自主车辆决策与控制

我们提出了一种方法，通过随机化基于规则的微观交通流的车辆跟随模型和变道模型的某些参数来随机化周围车辆的驾驶风格和行为，发现在高保真度微观交通流下训练的策略相比其他微观交通流下训练的模型具有更高的成功率和更好的计算奖励。

Mar, 2024

应用多智能体对抗性强化学习创建基于规则代理的故障场景制造器及其在自主驾驶中的应用

研究了在多智能体环境中，为包括基于规则的代理在内的回报学习问题。提出了一种通过训练对抗智能体来有效地发现失败场景的方法，并通过简单环境和自动驾驶模拟器展示了该方法的有效性。

Mar, 2019