面向不确定性的机器人强鲁棒规划中的 POMDP-lite
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程(POMDP)的数学模型和算法,分析它们的特点,并提供适用的决策任务的关键任务特性。
Sep, 2022
本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
Jun, 2011
该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法,该算法不是基于传统的探索 - 利用原则,而是采用几何拓扑中的重心跨度技术构建策略套接,并且通过对状态分布和观测分布的假设来保证合理性。
Jun, 2022
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
本文针对传统 POMDP 学习在简单环境下的效率问题,提出了一种新的算法 HOMDP,并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。
Jan, 2023
介绍一种基于准确置信模型的 BetaZero 算法,该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策,解决了部分可观测领域的挑战,并在地质勘探等现实任务中表现出色。
May, 2023
本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展,以消除未测量混淆变量所引起的误差。同时,我们提出了一种离线学习因果模型的方法,用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法,并表明所学习的因果模型非常准确,而我们的规划方法比 AR-DESPOT 更加抗干扰,并产生更高性能的策略。
Apr, 2023
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023
部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题,并提出了两种领域独立的启发式算法,一种基于经典规划中著名的 h_add 启发式算法,另一种在信念空间中计算并考虑信息价值。
Oct, 2023