基于变分推理的贝叶斯模型强化学习动态规划

Jul, 2019

基于变分推理的贝叶斯模型强化学习动态规划

Variational Inference MPC for Bayesian Model-based Reinforcement Learning

Masashi Okada, Tadahiro Taniguchi

TL;DR该研究提出了一种基于贝叶斯推理的模型强化学习方法，通过引入不确定性建模，可以更好地优化学习表现，并在多个机器人运动任务上得到了验证。

Abstract

In recent studies on model-based reinforcement learning (MBRL), incorporating uncertainty in forward dynamics is a state-of-the-art strategy to enhance learning performance, making MBRLs competitive to cutting-ed

model-based reinforcement learning uncertainty dynamics modeling stochastic optimization bayesian inference

发现论文，激发创造

融合丢失不确定性和轨迹采样的实用概率模型深度强化学习

本研究提出了一种基于神经网络的概率模型强化学习方法，利用 Monte-Carlo dropout 和轨迹采样相结合的 DPETS 框架来稳定预测系统不确定性，并通过设计适应神经网络拟合误差的损失函数实现更准确的概率模型预测。在评估中，DPETS 在多个控制任务中表现优于相关 MBRL 方法和无模型基准，并实现了显著的样本效率提高。

Sep, 2023

多智能体概率合奏与轨迹采样用于连通自动驾驶车辆

我们提出了一种名为 MA-PETS 的分散多智能体概率集成与轨迹采样算法，用于解决限制通信的多个自动驾驶车辆的决策问题，并在理论和实验中验证了其在样本效率方面的优越性。

Dec, 2023

使用概率动态模型进行少量试验的深度强化学习

本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率，并通过样本传播方法实现不确定性处理，从而解决参数化函数逼近器，如深度网络的性能下降问题，我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较，结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配，并且在许多具有挑战性的基准任务中需要明显较少的样本数量（例如，在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍）。

May, 2018

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于非线性稀疏变分贝叶斯学习的模型预测控制及其在 PEMFC 温度控制中的应用

该研究发展了一种基于非线性稀疏变分贝叶斯学习的模型预测控制方法，在该方法中通过 NSVB 方法学习模型，利用变分推断来评估预测准确性并对系统不确定性进行必要的修正，以确保输入到状态的稳定性和约束条件的可行性，最后通过 PEMFC 温度控制模型实验证实了 NSVB-MPC 方法的有效性。

Apr, 2024

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

基于机器人的 POMDP 的贝叶斯强化学习

该论文提出了一个面向物理系统的专门框架，利用 Bayesian reinforcement learning（BRL）和专家知识对机器人的学习进行优化，实现了在人机交互任务中的快速学习和处理环境中的不确定性。

Jul, 2023

贝叶斯探索网络

贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法，但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战，通过在一维贝尔曼算子中建模不确定性，引入贝叶斯探索网络 (BEN)，通过正态化流来建模贝尔曼算子中的不确定性，并通过变分推断来建模知识性不确定性，实验结果表明，BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。

Aug, 2023