用蒙特卡罗抽样方法逼近交互式 POMDP 模型
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
在集中式多智能体系统中,使用多智能体部分可观察马尔可夫决策过程(MPOMDPs)进行建模,其中动作和观察空间随着智能体数量呈指数增长,使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法,同时解决了价值估计和状态估计的挑战,提出了基于稀疏粒子滤波信念树的在线规划算法,该算法在少量智能体的情况下表现出竞争性的性能,并在多智能体的基准测试中胜过现有算法。
Dec, 2023
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。
Sep, 2011
本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
Jun, 2011
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。
Feb, 2024
该研究论文介绍了一种有效的决策制定方法,通过对高维观测空间进行划分,并利用这种划分提出了分析边界,以求得期望的信息论奖励,进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善,在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。
Sep, 2023
提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策略的性能提供了强大的边界。
Jan, 2020
本文介绍了 Hybrid Belief Monte Carlo Planning (HB-MCP) 算法,利用 Monte Carlo Tree Search (MCTS) 算法来解决部分可观测马尔科夫决策过程 (POMDP) 问题,同时维护混合信念。研究者采用上置信区间 (UCB) 探索奖励来结合概率分布树和信任度分布树,以引导假设树的增长,同时在解决未解决数据关联问题的高度别名模拟环境中评估了该方法的有效性。
Nov, 2022
该研究提出了一种用于解决大型部分观察马尔可夫决策过程(POMDPs)的算法,通过降低置信度空间的维度来进行策略逼近,其中采用了指数族主成分分析方法,并且该算法成功地应用于合成问题和移动机器人导航任务中。
Jun, 2011