自主驾驶强化学习的不确定性识别、估计和界限化
本研究探讨了如何使用贝叶斯强化学习方法和散置神经网络来解决交叉路口自主驾驶情景下的决策问题,训练出的系统可以估计可靠性并识别未知情境中的危险,其性能远超标准的基于深度 Q 网络的决策系统。
Jun, 2020
在人行道密集的环境中,安全、符合社会要求且高效的低速自主车辆的导航需要考虑行人的未来位置以及与车辆和其他人的互动。本研究提出了一种集成预测和规划方法,该方法在模型无关的深度强化学习算法的训练中考虑了预测的行人状态的不确定性。通过引入一种新的奖励函数,该方法促使自主车辆尊重行人的私人空间,在接近行人时减速,并最小化与其预测路径的碰撞概率。结果显示,与不考虑预测不确定性的最先进的模型相比,本方法降低了 40% 的碰撞率,并增加了 15% 的与行人的最小距离。此外,该方法在性能和计算时间方面超过了采用相同预测不确定性的模型预测控制方法,并产生了更接近于人类驾驶员在类似场景中的轨迹。
May, 2024
自适应驾驶决策中,深度强化学习模型的黑盒特性限制了实际应用,因此本研究工作关注一种基于注意力机制的可解释深度强化学习框架,并使用连续近端策略优化算法作为基准模型,在开源自适应驾驶仿真环境中加入了多头注意力机制。通过分析技术讨论模型的可解释性和因果关系,发现模型的第一个头部编码了邻近车辆的位置,而第二个头部则专注于领导车辆。此外,自车的动作在时空上受到目标车道上车辆的因果依赖。这些发现可帮助从业人员解读深度强化学习算法的结果。
Mar, 2024
本文研究了自主车辆在安全关键任务中使用神经网络时,面临的不可避免的误差问题,并给出了一些用于评估这种不确定性的方法和指标,比较了各种不确定性量化方法在特定 AV 任务和类型的优劣。
Jun, 2020
本文讨论了 Deep Neural Networks 在自动驾驶领域中的应用,提出了一种实时提取不确定性量化度量的方法,并使用此方法预测了潜在的崩溃事件。
Nov, 2018
提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。
May, 2019
本研究提出了一种基于不确定性的模型学习算法,以实现移动机器人学习导航和避免碰撞的目标,该算法可以估计碰撞概率并通过不确定度来控制行进速度,并利用神经网络从传感器中处理原始数据,实验结果表明,该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。
Feb, 2017
提出了一种用基于贝叶斯信任网络和蒙特卡罗采样的方法来对神经网络进行不确定性估计,这个方法具有与神经网络结构和任务无关,不需要优化进程的更改,能够应用于已经训练好的结构,有效地提高了准确性。
Jul, 2019
在本文中,我们介绍了一种适用于随机驾驶环境规划的不确定性感知决策 Transformer(UNREST),该方法通过条件互信息来估计状态的不确定性,并相应地对序列进行分割,以从真实的代理动作结果中学习而不是环境转换,实验证明了 UNREST 在各种驾驶场景中的卓越性能和不确定性估计策略的巨大潜力。
Sep, 2023