基于变分推理的贝叶斯模型强化学习动态规划
本研究提出了一种基于神经网络的概率模型强化学习方法,利用 Monte-Carlo dropout 和轨迹采样相结合的 DPETS 框架来稳定预测系统不确定性,并通过设计适应神经网络拟合误差的损失函数实现更准确的概率模型预测。在评估中,DPETS 在多个控制任务中表现优于相关 MBRL 方法和无模型基准,并实现了显著的样本效率提高。
Sep, 2023
我们提出了一种名为 MA-PETS 的分散多智能体概率集成与轨迹采样算法,用于解决限制通信的多个自动驾驶车辆的决策问题,并在理论和实验中验证了其在样本效率方面的优越性。
Dec, 2023
本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率,并通过样本传播方法实现不确定性处理,从而解决参数化函数逼近器,如深度网络的性能下降问题,我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较,结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配,并且在许多具有挑战性的基准任务中需要明显较少的样本数量(例如,在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍)。
May, 2018
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
该研究发展了一种基于非线性稀疏变分贝叶斯学习的模型预测控制方法,在该方法中通过 NSVB 方法学习模型,利用变分推断来评估预测准确性并对系统不确定性进行必要的修正,以确保输入到状态的稳定性和约束条件的可行性,最后通过 PEMFC 温度控制模型实验证实了 NSVB-MPC 方法的有效性。
Apr, 2024
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态 - 行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为 VAPOR,与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本 VAPOR 在性能上的优势。
Nov, 2023
该论文提出了一个面向物理系统的专门框架,利用 Bayesian reinforcement learning(BRL)和专家知识对机器人的学习进行优化,实现了在人机交互任务中的快速学习和处理环境中的不确定性。
Jul, 2023
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023