分散式控制马尔可夫决策过程的复杂性

Jan, 2013

分散式控制马尔可夫决策过程的复杂性

The Complexity of Decentralized Control of Markov Decision Processes

Daniel S Bernstein, Shlomo Zilberstein, Neil Immerman

TL;DR探讨了具有部分状态信息的分布式智能体的规划问题，介绍了对 MDP 和 POMDP 模型的推广，研究表明分散控制与集中控制在马尔可夫过程中的根本差异，相关问题不适合使用多项式时间算法来求解，需要使用双指数时间算法求解。

Abstract

Planning for distributed agents with partial state information is considered from a decision- theoretic perspective. We describe generalizations of both the MDP and POMDP models that allow for →

distributed agents partial state information decentralized control markov processes complexity results

发现论文，激发创造

部分历史分享下的分散随机控制：一种共同信息方法

本研究提出了一种分散式随机控制的普适模型，称之为部分历史共享信息结构。在该模型中，每一时刻控制器都要分享他们的部分观察历史和控制历史。基于所有控制器共同知晓的信息，将分散式问题从一个协调者的角度重构为等价的集中式问题，并提出了一种解决这个等价问题的方法。相较于已有的方法，这种方法是更简单、综合的，能够提供更好的结构性和动态规划方案。

Sep, 2012

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

Dec-POMDP 中的平衡 Monte-Carlo 搜索

本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC，称为 MC-JESP，实验证明其竞争力甚至优于使用显式模型的许多离线方法

May, 2023

协作系统的分散控制：分类和复杂性分析

本文研究分散控制问题，发现可以通过独立转换、独立观测、面向目标函数的特征来解决该问题。在此基础上，研究了决策者之间的信息共享，提出了间接通信、直接通信和共享状态特征三种交换信息的方式，发现对于所有问题的类别，引入直接或间接通信不会改变最坏情况的复杂性。最终，提出了规划算法以解决这些问题。

Jun, 2011

解决马尔可夫决策问题的复杂性

本文总结了解决 Markov 决策问题及其算法运行时间的复杂性，并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时，本文提出了一些基于 MDP 结构的替代分析方法，以鼓励未来的研究。

Feb, 2013

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

确定性 POMDP 再探

研究了一个 POMDP 子类 —— 确定性 POMDP，它具有确定性动作和观测，能够捕捉许多有趣和具有挑战性的问题，并允许更有效的算法，同时提供了与 AND/OR 搜索问题和算法的基本属性以及它们的计算复杂性的结果。

May, 2012