风险感知自适应基于信念的概率约束连续 POMDP 规划
研究了基于信念空间规划的在线决策问题,在信息收集等场景下,介绍了一种自适应的方法来寻求最大可行回报,应用这种方法可以在保证准确率的前提下显著加速在线决策过程,并进行了大量现实模拟来验证此方法的优越性。
Feb, 2023
在不确定环境中安全规划时,智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法,通过学习神经网络近似的最优值和策略,并引入了额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。通过使用自适应符合推理更新规划中的失败阈值,引入了 Δ-MCTS,以避免过分强调基于失败估计的搜索。该方法在一个安全关键的 POMDP 基准、飞机碰撞避免系统以及安全二氧化碳储存可持续性问题上进行了测试,结果表明,通过将安全限制与目标分离,可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。
May, 2024
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
在部分可观察域中,面临不确定性的风险规避决策是人工智能领域的一个基本问题,对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模并采用回报的条件风险价值(CVaR)作为值函数。这项工作开发了一个简化框架,以加快值函数的评估速度,并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法,该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限,通过假设两个累积分布之间的界限,可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后,我们推导出 POMDP 设置下 CVaR 值函数的界限,并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数,而无需实时访问计算代价高昂的模型。接着,我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化,并可以同时简化观察和状态转移模型。
Jun, 2024
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
本文提出基于有限状态控制器的有界策略迭代方法,通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略,并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。
Sep, 2019
该研究论文介绍了一种有效的决策制定方法,通过对高维观测空间进行划分,并利用这种划分提出了分析边界,以求得期望的信息论奖励,进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善,在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。
Sep, 2023
使用简化观测模型进行规划,同时保证解决方案的质量,无需在规划过程中访问昂贵的模型,以统计总变差距离为基础提出了一种新的概率界,通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距,并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。
Nov, 2023
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。
Sep, 2011