启发式搜索值迭代用于 POMDPs
本文介绍了神经符号人工智能在不确定性的情况下进行序列决策的一种新方法,即神经符号部分可观察马尔可夫决策过程 (NS-POMDPs);提出了基于多面体的新型连续状态置信度分段线性凸表示 (P-PWLC),并且扩展将 Bellman 备份应用于此表示,设计了两种值迭代算法,即经典的值迭代算法和基于点的近似方法。通过两个车辆停车和飞行器避碰案例研究,展示了该方法的实际应用。
Jun, 2023
介绍了一种名为 PBVI 的基于点值备份策略的实时部分可观测的马可夫决策过程,该策略通过选择信息信念点提高了算法效率,同时在标准的 POMDP 域和现实机器人任务中进行了实验评估。
Sep, 2011
该研究论文探讨了部分可观测马尔可夫决策过程(POMDPs)中的最大可达性概率问题(MRPP),研究了一种基于点估计方法和基于试探性启发式搜索的新算法,解决了处理无限时域问题中循环的问题,并在实验评估中表现出优越性。
Jun, 2024
我们提出了一种变种的连续状态部分可观测的随机博弈模型,其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算 ε- 极小极大策略配置的方法,每个阶段仅需解决一个线性规划问题,而不是复杂的对手反事实值估计。对于部分知情的智能体,我们提出了一种持续解决方法,使用由启发式搜索值迭代(HSVl)预先计算的下界代替对手反事实值。对于完全知情的智能体,我们提出了一种推断信念策略,该智能体基于 HSVl 的(离线)上界维护对部分知情智能体信念的推断,从而保证到初始信念上两智能体已知的游戏价值的 ε- 距离。
Apr, 2024
提出了两种优化的 MDP 算法,分别是基于拓扑序列的拓扑值迭代算法 (TVI) 和基于聚焦拓扑值迭代算法 (FTVI),前者使用拓扑排序来备份状态,后者通过启发式搜索来消除次优行动。在多个领域的多个测试中,FTVI 在效率上都明显优于其他算法。
Jan, 2014
介绍一种基于近似环境模型的规划与强化学习算法,名为 Operator Splitting Value Iteration (OS-VI),能更快地达到收敛,同时提出了针对采样的版本 OS-Dyna 用于处理模型误差问题。
Nov, 2022
该论文讲述了针对基于点的 POMDP 值迭代算法的复杂度界限,提出了一个基于折扣可达性并结合历史和维度的新界限,并介绍了改进的启发式搜索值迭代算法的最新进展。
Jul, 2012
使用三种方法解决了物理信息机器学习方法在机器人应用中由于采样性质而产生的不连续解的问题,并在 5D、9D 车辆模拟和 13D 无人机模拟中证明了混合方法在泛化和安全性能方面的优越性。
Nov, 2023
使用 SaIL 特有的算法,训练启发式策略来遍历搜索树中的节点,以减少搜索次数。实验证明 SaIL 算法在实时规划环境中优于现有算法,这为学习体现 ' 快速找到可行解并随时间增量调整 ' 的启发式方法铺平了道路。
Jul, 2017