分散式 POMDP 的最优和近似 Q 值函数

Oct, 2011

分散式 POMDP 的最优和近似 Q 值函数

Optimal and Approximate Q-value Functions for Decentralized POMDPs

Frans A. Oliehoek, Matthijs T. J. Spaan, Nikos Vlassis

TL;DR本文研究决策理论规划在单智能体和分布式 POMDP 模型中的应用，提出了一种可行的计算方法并对其算法进行了评估。

Abstract

decision-theoretic planning is a popular approach to sequential decision making problems, because it treats uncertainty in sensing and acting in a principled way. In single-agent frameworks like mdps and

decision-theoretic planning mdps pomdps dec-pomdps q-value functions

发现论文，激发创造

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

分解型 MDPs 的策略迭代

该论文提出了一种新的价值确定方法，借助简单的闭合计算来直接计算价值函数的分解逼近，以及一个基于此方法的策略迭代过程。

Jan, 2013

通过信念压缩寻找近似的 POMDP 解决方案

该研究提出了一种用于解决大型部分观察马尔可夫决策过程（POMDPs）的算法，通过降低置信度空间的维度来进行策略逼近，其中采用了指数族主成分分析方法，并且该算法成功地应用于合成问题和移动机器人导航任务中。

Jun, 2011

POMDP 中的期望总奖励欠估计算

本文研究了如何通过计算部分可观察马尔可夫决策过程的总期望奖励的下界来解决通常难以解决的问题，提供了两种技术：使用良好策略的简单技术和使用概率之间的最小移位的更高级别的技术。同时，本文还使用混合整数线性规划找到这样最小概率移位，并在实验中表明了这些技术的可扩展性和其提供的紧缩的下界值。

Jan, 2022

MAXQ 值函数分解的层次强化学习

该论文提出了基于 MAXQ 方法的分层强化学习，该方法通过将目标 MDP 分解为较小的 MDP 层次结构，并将目标 MDP 的值函数分解为较小 MDP 的值函数的加性组合来进行操作。同时，该论文引入了五个条件以安全地使用状态抽象。此外，该论文提出了一种新的在线无模型学习算法，MAXQ-Q，证明了其即使在存在五种状态抽象的情况下，该算法收敛于本地最优策略。实验结果表明，使用状态抽象的 MAXQ-Q 比平面 Q 学习更快地收敛于递归最优策略，并通过实验证明了该非分层执行的有效性。

May, 1999

多智能体规划中具有乐观影响的本地价值 --- 扩展版

本论文提出了一种影响 - 乐观上界策略，用于解决具有非因式价值函数的解离式部分可观察 MDP 的规模为数十甚至数百个代理的规划问题，并在数字上比较了不同的上界，并证明了启发式解法的优化保证，展示了该方法的多代理规划方面的潜在应用。

Feb, 2015

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

多智能体特征行列式 Q 学习

本文提出一种基于 Q-DPP 的多智能体 Q 学习方法，用于解决分布式合作任务中的中心化训练和分散执行，消除了限制性假设，并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。

Jun, 2020

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020

风险厌恶 POMDP 的简化与绩效保证

在部分可观察域中，面临不确定性的风险规避决策是人工智能领域的一个基本问题，对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程（POMDPs）建模并采用回报的条件风险价值（CVaR）作为值函数。这项工作开发了一个简化框架，以加快值函数的评估速度，并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法，该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限，通过假设两个累积分布之间的界限，可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后，我们推导出 POMDP 设置下 CVaR 值函数的界限，并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数，而无需实时访问计算代价高昂的模型。接着，我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化，并可以同时简化观察和状态转移模型。

Jun, 2024