将系统解释为解决 POMDP:朝着正式理解机构的一步
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。
Sep, 2011
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。
Feb, 2024
研究智能代理与多代理系统中的规划算法,探索在预测其他代理人的意图的基础上构建的高效的意图感知规划框架,并通过一系列随机博弈的实验表明,该框架可以实现更好的和更稳健的性能。
Apr, 2013
在集中式多智能体系统中,使用多智能体部分可观察马尔可夫决策过程(MPOMDPs)进行建模,其中动作和观察空间随着智能体数量呈指数增长,使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法,同时解决了价值估计和状态估计的挑战,提出了基于稀疏粒子滤波信念树的在线规划算法,该算法在少量智能体的情况下表现出竞争性的性能,并在多智能体的基准测试中胜过现有算法。
Dec, 2023
本文研究了带安全可达性目标的部分可观测马尔可夫决策过程(POMDPs),提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略,并通过实验结果表明,该方法能够在大量信念空间中高效地搜索有效策略。
Jan, 2018
提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策略的性能提供了强大的边界。
Jan, 2020