带有性能保证的 ρ-POMDP 中的测量简化
研究了基于信念空间规划的在线决策问题,在信息收集等场景下,介绍了一种自适应的方法来寻求最大可行回报,应用这种方法可以在保证准确率的前提下显著加速在线决策过程,并进行了大量现实模拟来验证此方法的优越性。
Feb, 2023
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
使用简化观测模型进行规划,同时保证解决方案的质量,无需在规划过程中访问昂贵的模型,以统计总变差距离为基础提出了一种新的概率界,通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距,并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。
Nov, 2023
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
在部分可观察域中,面临不确定性的风险规避决策是人工智能领域的一个基本问题,对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模并采用回报的条件风险价值(CVaR)作为值函数。这项工作开发了一个简化框架,以加快值函数的评估速度,并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法,该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限,通过假设两个累积分布之间的界限,可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后,我们推导出 POMDP 设置下 CVaR 值函数的界限,并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数,而无需实时访问计算代价高昂的模型。接着,我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化,并可以同时简化观察和状态转移模型。
Jun, 2024
在集中式多智能体系统中,使用多智能体部分可观察马尔可夫决策过程(MPOMDPs)进行建模,其中动作和观察空间随着智能体数量呈指数增长,使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法,同时解决了价值估计和状态估计的挑战,提出了基于稀疏粒子滤波信念树的在线规划算法,该算法在少量智能体的情况下表现出竞争性的性能,并在多智能体的基准测试中胜过现有算法。
Dec, 2023
该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题,其中高维过滤分布通过投影到参数化分布族进行了近似,结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上,包括队列系统和化学反应网络,验证了该方法的有效性。
Feb, 2024
该研究提出了一种用于解决大型部分观察马尔可夫决策过程(POMDPs)的算法,通过降低置信度空间的维度来进行策略逼近,其中采用了指数族主成分分析方法,并且该算法成功地应用于合成问题和移动机器人导航任务中。
Jun, 2011
该研究旨在使用奖励函数来有效地做出明智的决策,通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限,同时,提出了一种用于改善聚合方法的方法,实现了相同动作选择的计算时间减少。
Jan, 2022