使用可逆跳转 MCMC 求解马尔可夫决策过程的新推理策略

May, 2012

使用可逆跳转 MCMC 求解马尔可夫决策过程的新推理策略

New inference strategies for solving Markov Decision Processes using reversible jump MCMC

Matthias Hoffman, Hendrik Kueck, Nando de Freitas, Arnaud Doucet

TL;DR本文提出了利用 Markov Chain Monte Carlo (MCMC) 方法解决参数控制问题的技术，并进行了多项改进，以在高维空间下更加实用。我们首先介绍了一种新的目标分布，能够从采样轨迹中合并更多的回报信息。我们还展示了如何有效地破解政策参数与采样轨迹之间较强的相关性，以便更自由地采样。最后，我们展示了如何以原则性方式将这些技术结合起来，从而获得最优策略的估计结果。

Abstract

In this paper we build on previous work which uses inferences techniques, in particular markov chain monte carlo (MCMC) methods, to solve parameterized control problems. We propose a number of modifications in order to make this approach more practical in general, higher-dimensional sp

markov chain monte carlo parameterized control problems policy parameters reward information optimal policy

发现论文，激发创造

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程，并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况，并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性，引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题，并对其性质进行了深入分析。其次，采用线性函数逼近器和随机化方法，即场景方法和相关的概率可行性保证，为逆问题提供了 ε- 最优解。对于所需的近似精度，进一步讨论了样本复杂度。最后，针对只有有限一组专家示范和生成模型可供使用的更加现实的情况，给出了使用样本时产生的误差界限。

May, 2024

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

未知环境下的概率逆向强化学习

我们考虑了在未知的随机马尔可夫环境或游戏中，从代理人的示范学习的问题。我们旨在估计代理人的偏好，以构建同一任务的改进策略。为了做到这一点，我们将已知 MDP 中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点，为了易于处理，我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下，这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。

Aug, 2014

一种基于增量采样的随机最优控制算法

本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Feb, 2012

高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计

本文提出了一种单步估计算法，用于处理高维状态空间，同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数，使每次策略改进都能够进行。研究表明，该算法可以达到平稳状态，同时在 MuJoCo 机器人控制问题和其转移设置中，相比其他逆向强化学习算法和模仿学习基准，该算法表现更好。

Oct, 2022

多路径环境中的离散概率推断作为控制

通过在整个马尔可夫决策过程中近似强制执行流的守恒，我们扩展了最近的方法来纠正奖励，以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。

Feb, 2024

多目标马尔可夫决策过程中的内在动机分层策略学习

通过采用内在动机驱动的强化学习方法来演化出一套通用的技能集，以解决多目标马尔科夫决策过程，从而克服了在非稳态环境中无法泛化的问题。实验证明，该方法在动态机器人环境中明显优于现有的多目标强化学习方法。

Aug, 2023

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017