使用不确定性估计的强化学习在交叉路口的战术决策中

Jun, 2020

使用不确定性估计的强化学习在交叉路口的战术决策中

Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections

Carl-Johan Hoel, Tommy Tram, Jonas Sjöberg

TL;DR本研究探讨了如何使用贝叶斯强化学习方法和散置神经网络来解决交叉路口自主驾驶情景下的决策问题，训练出的系统可以估计可靠性并识别未知情境中的危险，其性能远超标准的基于深度 Q 网络的决策系统。

Abstract

This paper investigates how a bayesian reinforcement learning method can be used to create a tactical decision-making agent for autonomous driving in an →

bayesian reinforcement learning ensemble neural networks autonomous driving intersection scenario uncertainty estimation

发现论文，激发创造

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

自主驾驶强化学习的不确定性识别、估计和界限化

该研究提出了一种基于不确定性边界的深度强化学习方法，用于保护无人驾驶决策的可靠性。该方法通过限制无人车神经网络决策策略的性能不确定性，从而提高了性能表现，并能够在不同程度的训练数据下有效地保护可靠性，并提高性能。

May, 2023

碰撞避免的不确定性感知强化学习

本研究提出了一种基于不确定性的模型学习算法，以实现移动机器人学习导航和避免碰撞的目标，该算法可以估计碰撞概率并通过不确定度来控制行进速度，并利用神经网络从传感器中处理原始数据，实验结果表明，该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。

Feb, 2017

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

苏格拉底的怀疑回声：在校准的证据强化学习中拥抱不确定性

我们提出了一种新颖的统计方法，用于在无模型分布式强化学习中纳入不确定性感知，它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN（Calibrated Evidential Quantile Regression in Deep Q Networks），旨在解决在随机环境中分别估计偶然性和认识性不确定性所面临的关键挑战。它将深度证据学习与基于符合推理原则的分位校准相结合，提供明确的、无需样本的全局不确定性计算，而不是基于简单差异的局部估计，从而克服了传统方法在计算和统计效率以及处理超出分布范围观察的局限性。用于一套小型 Atari 游戏（即 MinAtar）的测试中，CEQR-DQN 在得分和学习速度方面超越了类似的现有框架。它对严格评估不确定性的能力改进了探索策略，并可作为其他需要不确定性感知的算法的蓝图。

Feb, 2024

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

端到端自动驾驶控制的统计保证下的不确定性量化

本论文提出了一种基于最先进的模拟器的框架，以评估端到端 Bayesian 控制器，实验评估了不同场景下用于避碰的不确定性计算的质量并表明不确定性估计可大大帮助自动驾驶车辆的决策。

Sep, 2019

面向随机驾驶环境的不确定性感知决策变换器

在本文中，我们介绍了一种适用于随机驾驶环境规划的不确定性感知决策 Transformer（UNREST），该方法通过条件互信息来估计状态的不确定性，并相应地对序列进行分割，以从真实的代理动作结果中学习而不是环境转换，实验证明了 UNREST 在各种驾驶场景中的卓越性能和不确定性估计策略的巨大潜力。

Sep, 2023

高效神经网络对话策略优化中的不确定性估计

本文研究了在对话管理环境下，采用深度强化学习框架（DQN）进行不确定性估计的方法，并与常见的基于高斯过程的方法进行了对比和基准测试，并对优化策略进行了探讨。

Nov, 2017