启发式搜索值迭代用于 POMDPs

Jul, 2012

Heuristic Search Value Iteration for POMDPs

Trey Smith, Reid Simmons

TL;DR本文提出了一种名为启发式搜索值迭代 (HSVI) 的新型 POMDP 规划算法，采用注意力集中搜索启发式和分段线性凸表示值函数的技术相结合，可在保证收敛与正确性的情况下提高计算速度，并在大规模问题上运用效果良好。

Abstract

We present a novel pomdp planning algorithm called heuristic search value iteration (HSVI).HSVI is an anytime algorithm that returns a pol

pomdp planning algorithm heuristic search value iteration regret

发现论文，激发创造

HSVI 能够解决零和部分可观察随机博弈

通过数学分析并且创新引入 HSV1-like 算法解决动态规划问题，其优于现有的线性规划和迭代方法。

Oct, 2022

基于点的价值迭代算法用于神经符号 POMDPs

本文介绍了神经符号人工智能在不确定性的情况下进行序列决策的一种新方法，即神经符号部分可观察马尔可夫决策过程 (NS-POMDPs)；提出了基于多面体的新型连续状态置信度分段线性凸表示 (P-PWLC)，并且扩展将 Bellman 备份应用于此表示，设计了两种值迭代算法，即经典的值迭代算法和基于点的近似方法。通过两个车辆停车和飞行器避碰案例研究，展示了该方法的实际应用。

Jun, 2023

大规模 POMDP 的即时点估计近似

介绍了一种名为 PBVI 的基于点值备份策略的实时部分可观测的马可夫决策过程，该策略通过选择信息信念点提高了算法效率，同时在标准的 POMDP 域和现实机器人任务中进行了实验评估。

Sep, 2011

无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

该研究论文探讨了部分可观测马尔可夫决策过程（POMDPs）中的最大可达性概率问题（MRPP），研究了一种基于点估计方法和基于试探性启发式搜索的新算法，解决了处理无限时域问题中循环的问题，并在实验评估中表现出优越性。

Jun, 2024

基于 HSVI 的部分观测随机博弈的在线极小化策略与神经感知机制

我们提出了一种变种的连续状态部分可观测的随机博弈模型，其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算 ε- 极小极大策略配置的方法，每个阶段仅需解决一个线性规划问题，而不是复杂的对手反事实值估计。对于部分知情的智能体，我们提出了一种持续解决方法，使用由启发式搜索值迭代（HSVl）预先计算的下界代替对手反事实值。对于完全知情的智能体，我们提出了一种推断信念策略，该智能体基于 HSVl 的（离线）上界维护对部分知情智能体信念的推断，从而保证到初始信念上两智能体已知的游戏价值的 ε- 距离。

Apr, 2024

拓扑值迭代算法

提出了两种优化的 MDP 算法，分别是基于拓扑序列的拓扑值迭代算法 (TVI) 和基于聚焦拓扑值迭代算法 (FTVI)，前者使用拓扑排序来备份状态，后者通过启发式搜索来消除次优行动。在多个领域的多个测试中，FTVI 在效率上都明显优于其他算法。

Jan, 2014

运算分裂价值迭代

介绍一种基于近似环境模型的规划与强化学习算法，名为 Operator Splitting Value Iteration (OS-VI)，能更快地达到收敛，同时提出了针对采样的版本 OS-Dyna 用于处理模型误差问题。

Nov, 2022

基于点的 POMDP 算法：改进分析与实现

该论文讲述了针对基于点的 POMDP 值迭代算法的复杂度界限，提出了一个基于折扣可达性并结合历史和维度的新界限，并介绍了改进的启发式搜索值迭代算法的最新进展。

Jul, 2012

具有状态约束的两人对称差分博弈的价值逼近

使用三种方法解决了物理信息机器学习方法在机器人应用中由于采样性质而产生的不连续解的问题，并在 5D、9D 车辆模拟和 13D 无人机模拟中证明了混合方法在泛化和安全性能方面的优越性。

Nov, 2023

通过模仿学习启发式搜索

使用 SaIL 特有的算法，训练启发式策略来遍历搜索树中的节点，以减少搜索次数。实验证明 SaIL 算法在实时规划环境中优于现有算法，这为学习体现 ' 快速找到可行解并随时间增量调整 ' 的启发式方法铺平了道路。

Jul, 2017