分散式控制马尔可夫决策过程的复杂性
本研究提出了一种分散式随机控制的普适模型,称之为部分历史共享信息结构。在该模型中,每一时刻控制器都要分享他们的部分观察历史和控制历史。基于所有控制器共同知晓的信息,将分散式问题从一个协调者的角度重构为等价的集中式问题,并提出了一种解决这个等价问题的方法。相较于已有的方法,这种方法是更简单、综合的,能够提供更好的结构性和动态规划方案。
Sep, 2012
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
Jun, 2011
本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC,称为 MC-JESP,实验证明其竞争力甚至优于使用显式模型的许多离线方法
May, 2023
本文研究分散控制问题,发现可以通过独立转换、独立观测、面向目标函数的特征来解决该问题。在此基础上,研究了决策者之间的信息共享,提出了间接通信、直接通信和共享状态特征三种交换信息的方式,发现对于所有问题的类别,引入直接或间接通信不会改变最坏情况的复杂性。最终,提出了规划算法以解决这些问题。
Jun, 2011
本文总结了解决 Markov 决策问题及其算法运行时间的复杂性,并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时,本文提出了一些基于 MDP 结构的替代分析方法,以鼓励未来的研究。
Feb, 2013
本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法,并在各种环境下对这些方法进行了评估,结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。
Jan, 2014
这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程(POMDP)的数学模型和算法,分析它们的特点,并提供适用的决策任务的关键任务特性。
Sep, 2022
我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法,其中使用近似线性规划计算近似值函数并实施分散策略改进。
Nov, 2023
研究了一个 POMDP 子类 —— 确定性 POMDP,它具有确定性动作和观测,能够捕捉许多有趣和具有挑战性的问题,并允许更有效的算法,同时提供了与 AND/OR 搜索问题和算法的基本属性以及它们的计算复杂性的结果。
May, 2012