融合丢失不确定性和轨迹采样的实用概率模型深度强化学习

Sep, 2023

融合丢失不确定性和轨迹采样的实用概率模型深度强化学习

Practical Probabilistic Model-based Deep Reinforcement Learning by Integrating Dropout Uncertainty and Trajectory Sampling

PDF

Wenjun Huang, Yunduan Cui, Huiyun Li, Xinyu Wu

TL;DR本研究提出了一种基于神经网络的概率模型强化学习方法，利用 Monte-Carlo dropout 和轨迹采样相结合的 DPETS 框架来稳定预测系统不确定性，并通过设计适应神经网络拟合误差的损失函数实现更准确的概率模型预测。在评估中，DPETS 在多个控制任务中表现优于相关 MBRL 方法和无模型基准，并实现了显著的样本效率提高。

Abstract

This paper addresses the prediction stability, prediction accuracy and control capability of the current probabilistic model-based reinforcement learning (MBRL) built on neural networks. A novel approach dropout-based probabilistic ensembles with →

probabilistic model-based reinforcement learning dropout-based probabilistic ensembles monte-carlo dropout trajectory sampling control capability

发现论文，激发创造

使用概率动态模型进行少量试验的深度强化学习

本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率，并通过样本传播方法实现不确定性处理，从而解决参数化函数逼近器，如深度网络的性能下降问题，我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较，结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配，并且在许多具有挑战性的基准任务中需要明显较少的样本数量（例如，在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍）。

May, 2018

基于变分推理的贝叶斯模型强化学习动态规划

该研究提出了一种基于贝叶斯推理的模型强化学习方法，通过引入不确定性建模，可以更好地优化学习表现，并在多个机器人运动任务上得到了验证。

Jul, 2019

多智能体概率合奏与轨迹采样用于连通自动驾驶车辆

我们提出了一种名为 MA-PETS 的分散多智能体概率集成与轨迹采样算法，用于解决限制通信的多个自动驾驶车辆的决策问题，并在理论和实验中验证了其在样本效率方面的优越性。

Dec, 2023

采样轨迹的深度高斯协方差网络用于数据有效的策略搜索

通过结合轨迹采样和深度高斯协方差网络（DGCN），我们提出了一种在最优控制环境中解决 MBRL 问题的数据高效解决方案，通过三种不同的概率世界模型（高斯过程、贝叶斯神经网络和 DGCNs）比较采用基于密度的不确定性传播的轨迹采样方法，我们在四个不同的知名测试环境中提供了实证证据，表明我们的方法提高了样本效率，同时对于噪声初始状态的鲁棒性也得到了重视。

Mar, 2024

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

利用概率集成神经网络动力学来桥接主动探索和不确定性感知部署

该研究提出了一个基于模型的强化学习框架，将主动探索和不确定性感知部署这两个任务结合了起来，通过 Jensen-Renyi 分歧量化确定性，最终在自主驾驶车辆和轮式机器人上进行了成功的实验。

May, 2023

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs

本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架，并提出了一种基于 dropout 网络的新方法 BADDr，旨在解决 BRL 方法在拓展性上存在的瓶颈，并证实其在处理规模较大的情况时的有效性。

Feb, 2022