自主驾驶强化学习的不确定性识别、估计和界限化

May, 2023

自主驾驶强化学习的不确定性识别、估计和界限化

Identify, Estimate and Bound the Uncertainty of Reinforcement Learning for Autonomous Driving

Weitao Zhou, Zhong Cao, Nanshan Deng, Kun Jiang, Diange Yang

TL;DR该研究提出了一种基于不确定性边界的深度强化学习方法，用于保护无人驾驶决策的可靠性。该方法通过限制无人车神经网络决策策略的性能不确定性，从而提高了性能表现，并能够在不同程度的训练数据下有效地保护可靠性，并提高性能。

Abstract

deep reinforcement learning (DRL) has emerged as a promising approach for developing more intelligent autonomous vehicles (AVs). A typical DRL application on AVs is to train a →

deep reinforcement learning autonomous vehicles neural network-based driving policy uncertainty-bound reinforcement learning performance improvement

发现论文，激发创造

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

使用不确定性估计的强化学习在交叉路口的战术决策中

本研究探讨了如何使用贝叶斯强化学习方法和散置神经网络来解决交叉路口自主驾驶情景下的决策问题，训练出的系统可以估计可靠性并识别未知情境中的危险，其性能远超标准的基于深度 Q 网络的决策系统。

Jun, 2020

在共享空间中的自动驾驶车辆群体导航用于不确定性感知的深度强化学习

在人行道密集的环境中，安全、符合社会要求且高效的低速自主车辆的导航需要考虑行人的未来位置以及与车辆和其他人的互动。本研究提出了一种集成预测和规划方法，该方法在模型无关的深度强化学习算法的训练中考虑了预测的行人状态的不确定性。通过引入一种新的奖励函数，该方法促使自主车辆尊重行人的私人空间，在接近行人时减速，并最小化与其预测路径的碰撞概率。结果显示，与不考虑预测不确定性的最先进的模型相比，本方法降低了 40% 的碰撞率，并增加了 15% 的与行人的最小距离。此外，该方法在性能和计算时间方面超过了采用相同预测不确定性的模型预测控制方法，并产生了更接近于人类驾驶员在类似场景中的轨迹。

May, 2024

深度强化学习自动驾驶决策的揭秘

自适应驾驶决策中，深度强化学习模型的黑盒特性限制了实际应用，因此本研究工作关注一种基于注意力机制的可解释深度强化学习框架，并使用连续近端策略优化算法作为基准模型，在开源自适应驾驶仿真环境中加入了多头注意力机制。通过分析技术讨论模型的可解释性和因果关系，发现模型的第一个头部编码了邻近车辆的位置，而第二个头部则专注于领导车辆。此外，自车的动作在时空上受到目标车道上车辆的因果依赖。这些发现可帮助从业人员解读深度强化学习算法的结果。

Mar, 2024

自主车应用深度学习部件不确定性估计方法比较

本文研究了自主车辆在安全关键任务中使用神经网络时，面临的不可避免的误差问题，并给出了一些用于评估这种不确定性的方法和指标，比较了各种不确定性量化方法在特定 AV 任务和类型的优劣。

Jun, 2020

评估端到端自动驾驶控制中的不确定性量化

本文讨论了 Deep Neural Networks 在自动驾驶领域中的应用，提出了一种实时提取不确定性量化度量的方法，并使用此方法预测了潜在的崩溃事件。

Nov, 2018

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

碰撞避免的不确定性感知强化学习

本研究提出了一种基于不确定性的模型学习算法，以实现移动机器人学习导航和避免碰撞的目标，该算法可以估计碰撞概率并通过不确定度来控制行进速度，并利用神经网络从传感器中处理原始数据，实验结果表明，该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。

Feb, 2017

深度学习不确定性估计的通用框架

提出了一种用基于贝叶斯信任网络和蒙特卡罗采样的方法来对神经网络进行不确定性估计，这个方法具有与神经网络结构和任务无关，不需要优化进程的更改，能够应用于已经训练好的结构，有效地提高了准确性。

Jul, 2019

面向随机驾驶环境的不确定性感知决策变换器

在本文中，我们介绍了一种适用于随机驾驶环境规划的不确定性感知决策 Transformer（UNREST），该方法通过条件互信息来估计状态的不确定性，并相应地对序列进行分割，以从真实的代理动作结果中学习而不是环境转换，实验证明了 UNREST 在各种驾驶场景中的卓越性能和不确定性估计策略的巨大潜力。

Sep, 2023