本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展,以消除未测量混淆变量所引起的误差。同时,我们提出了一种离线学习因果模型的方法,用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法,并表明所学习的因果模型非常准确,而我们的规划方法比 AR-DESPOT 更加抗干扰,并产生更高性能的策略。
Apr, 2023
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法,并在各种环境下对这些方法进行了评估,结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。
Jan, 2014
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。
Feb, 2024
本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite, 使用该方法解决机器人任务时计算复杂度减小,我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型,效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。
Feb, 2016
部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题,并提出了两种领域独立的启发式算法,一种基于经典规划中著名的 h_add 启发式算法,另一种在信念空间中计算并考虑信息价值。
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
本研究提出了一种名为 LCEOPT 的简单在线 POMDP 求解器,通过使用迭代更新策略的分布,从而能够更好地解决具有连续动作空间的问题。
May, 2023
优化在约束部分可观察马尔可夫决策过程中的规划,使用层次分解和在线基于搜索的约束选项信念树搜索算法来扩展大型机器人领域中的规划问题。
介绍一种基于准确置信模型的 BetaZero 算法,该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策,解决了部分可观测领域的挑战,并在地质勘探等现实任务中表现出色。