串联马尔可夫链推理的策略梯度

Oct, 2022

Policy Gradient With Serial Markov Chain Reasoning

Edoardo Cetin, Oya Celiktutan

TL;DR该论文提出了一种新的强化学习决策框架，将智能体的行为建模为参数化推理马尔科夫链，利用可行的策略梯度估计进行优化，通过模拟推理马尔科夫链以接近其稳态分布来完成动作选择，并且可以通过适应性地缩短决策困难度来加速推理，该算法在诸如 Mujoco 和 DeepMind Control 等任务中实现了最先进的性能。

Abstract

We introduce a new framework that performs decision-making in reinforcement learning (RL) as an iterative reasoning process. We model agent behavior as the steady-state distribution of a parameterized reasoning markov c

reinforcement learning reasoning process markov chain policy gradient algorithm

发现论文，激发创造

参数化行动下的强化学习

介绍了一种无模型算法，用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法，并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。

Sep, 2015

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

使用可逆跳转 MCMC 求解马尔可夫决策过程的新推理策略

本文提出了利用 Markov Chain Monte Carlo (MCMC) 方法解决参数控制问题的技术，并进行了多项改进，以在高维空间下更加实用。我们首先介绍了一种新的目标分布，能够从采样轨迹中合并更多的回报信息。我们还展示了如何有效地破解政策参数与采样轨迹之间较强的相关性，以便更自由地采样。最后，我们展示了如何以原则性方式将这些技术结合起来，从而获得最优策略的估计结果。

May, 2012

决策堆栈：基于模块化生成模型的灵活强化学习

本研究提出决策栈（Decision Stacks），一种将目标条件策略代理分解为 3 个生成模块的生成框架，其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变，并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果，优于现有方法，并实现了灵活的生成决策制定。

Jun, 2023

可证明高效因果模型强化学习用于系统化泛化

该论文提出了一种基于因果视角的可行的系统性泛化的公式，并基于特定的结构假设提供了一种简单的学习算法，以多项式样本复杂度保证任何所需的规划误差。

Feb, 2022

多模态轨迹优化的重参数化策略学习

我们研究了在高维连续动作空间中参数化强化学习（RL）策略的挑战。我们的目标是开发一种多模式策略，以克服常用的高斯参数化方法固有的限制。为了实现这一目标，我们提出了一个原则性框架，将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于潜变量，我们导出了一种新颖的变分下界作为优化目标，以促进环境的探索。然后，我们提出了一种实用的基于模型的 RL 方法，称为重新参数化策略梯度（RPG），它利用多模式策略参数化和学习的世界模型来实现强大的探索能力和高效数据利用率。实证结果表明，我们的方法可以帮助 Agent 在具有密集奖励的任务中避免局部最优值，并通过结合面向对象的内在奖励来解决具有挑战性的稀疏奖励环境。我们的方法在各种任务中始终优于以前的方法。项目页面提供了代码和补充材料。

Jul, 2023

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

面向连续决策的统一框架

近年来，自动规划（AP）和强化学习（RL）的整合引起了广泛关注。为了实现这种整合，我们试图提供一个适用于从传统规划到深度强化学习的任何方法的顺序决策制定（SDM）的通用框架，该框架借鉴了概率论和贝叶斯推断的概念。我们用训练和测试的马尔可夫决策过程（MDPs）集合来定义 SDM 任务，以考虑泛化性。我们提供了一个 SDM 的通用算法，并推测每个 SDM 方法都基于它。根据该算法，每个 SDM 算法可以被看作是通过利用可用的任务知识来迭代改进其解决方案估计的过程。最后，我们推导出一组用于计算 SDM 任务和方法的有趣属性的公式和算法，从而使得它们的经验评估和比较成为可能。

Oct, 2023

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

通过近端策略优化和蒙特卡罗树搜索实现机动决策

基于邻近策略优化和蒙特卡洛树搜索的方法，用于解决机动决策问题，通过使用邻近策略优化训练智能体，并使用价值网络作为训练目标，以及基于价值网络和每个节点的访问次数，使用蒙特卡洛树搜索找到比随机动作更有预期回报的动作，提高训练性能，实验验证了所提方法的有效性和可行性。

Aug, 2023