使用不确定性估计的强化学习在交叉路口的战术决策中
该研究提出了一种基于不确定性边界的深度强化学习方法,用于保护无人驾驶决策的可靠性。该方法通过限制无人车神经网络决策策略的性能不确定性,从而提高了性能表现,并能够在不同程度的训练数据下有效地保护可靠性,并提高性能。
May, 2023
本研究提出了一种基于不确定性的模型学习算法,以实现移动机器人学习导航和避免碰撞的目标,该算法可以估计碰撞概率并通过不确定度来控制行进速度,并利用神经网络从传感器中处理原始数据,实验结果表明,该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。
Feb, 2017
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022
提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。
May, 2019
我们提出了一种新颖的统计方法,用于在无模型分布式强化学习中纳入不确定性感知,它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN(Calibrated Evidential Quantile Regression in Deep Q Networks),旨在解决在随机环境中分别估计偶然性和认识性不确定性所面临的关键挑战。它将深度证据学习与基于符合推理原则的分位校准相结合,提供明确的、无需样本的全局不确定性计算,而不是基于简单差异的局部估计,从而克服了传统方法在计算和统计效率以及处理超出分布范围观察的局限性。用于一套小型 Atari 游戏(即 MinAtar)的测试中,CEQR-DQN 在得分和学习速度方面超越了类似的现有框架。它对严格评估不确定性的能力改进了探索策略,并可作为其他需要不确定性感知的算法的蓝图。
Feb, 2024
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
本论文提出了一种基于最先进的模拟器的框架,以评估端到端 Bayesian 控制器,实验评估了不同场景下用于避碰的不确定性计算的质量并表明不确定性估计可大大帮助自动驾驶车辆的决策。
Sep, 2019
在本文中,我们介绍了一种适用于随机驾驶环境规划的不确定性感知决策 Transformer(UNREST),该方法通过条件互信息来估计状态的不确定性,并相应地对序列进行分割,以从真实的代理动作结果中学习而不是环境转换,实验证明了 UNREST 在各种驾驶场景中的卓越性能和不确定性估计策略的巨大潜力。
Sep, 2023
本文研究了在对话管理环境下,采用深度强化学习框架(DQN)进行不确定性估计的方法,并与常见的基于高斯过程的方法进行了对比和基准测试,并对优化策略进行了探讨。
Nov, 2017