拓扑值迭代算法

Jan, 2014

Topological Value Iteration Algorithms

Peng Dai, Mausam, Daniel Sabby Weld, Judy Goldsmith

TL;DR提出了两种优化的 MDP 算法，分别是基于拓扑序列的拓扑值迭代算法 (TVI) 和基于聚焦拓扑值迭代算法 (FTVI)，前者使用拓扑排序来备份状态，后者通过启发式搜索来消除次优行动。在多个领域的多个测试中，FTVI 在效率上都明显优于其他算法。

Abstract

value iteration is a powerful yet inefficient algorithm for Markov decision processes (MDPs) because it puts the majority of its effort into backing up the entire state space, which turns out to be unnecessary in many cases. In order to overcome this problem, many approaches have been

value iteration markov decision process optimal topological sequences heuristic search

发现论文，激发创造

启发式搜索值迭代用于 POMDPs

本文提出了一种名为启发式搜索值迭代 (HSVI) 的新型 POMDP 规划算法，采用注意力集中搜索启发式和分段线性凸表示值函数的技术相结合，可在保证收敛与正确性的情况下提高计算速度，并在大规模问题上运用效果良好。

Jul, 2012

高速公路图在强化学习中的加速

为了提高 RL 算法的训练效率，本研究基于高速公路图的观察，提出了一种新颖的图结构，用于模拟状态转换，将 RL 训练在早期阶段显著加速，并在性能上优于其他无模型和带模型的 RL 算法。同时，基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。

May, 2024

大规模 POMDP 的即时点估计近似

介绍了一种名为 PBVI 的基于点值备份策略的实时部分可观测的马可夫决策过程，该策略通过选择信息信念点提高了算法效率，同时在标准的 POMDP 域和现实机器人任务中进行了实验评估。

Sep, 2011

关于连接型 MDP 中价值迭代的收敛性

该论文证明，具有唯一最优策略和符合遍历性条件的转移矩阵的 MDP 可以保证各种版本的值迭代算法以超过折扣因子 γ 的几何速度收敛，适用于折扣和平均奖励标准。

Jun, 2024

拟合值迭代方法在双因果最优输运中的应用

本文提出了一种拟合值迭代（FVI）方法，用于计算具有适应性结构的 bicausal 最优传输（OT）问题，证明了样本复杂性，并展示了多层神经网络的适当结构能够满足所需的关键假设。数值实验表明，FVI 在可扩展性方面优于线性规划和自适应 Sinkhorn 方法，同时仍保持可接受的准确性。

Jun, 2023

运算分裂价值迭代

介绍一种基于近似环境模型的规划与强化学习算法，名为 Operator Splitting Value Iteration (OS-VI)，能更快地达到收敛，同时提出了针对采样的版本 OS-Dyna 用于处理模型误差问题。

Nov, 2022

无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

该研究论文探讨了部分可观测马尔可夫决策过程（POMDPs）中的最大可达性概率问题（MRPP），研究了一种基于点估计方法和基于试探性启发式搜索的新算法，解决了处理无限时域问题中循环的问题，并在实验评估中表现出优越性。

Jun, 2024

将价值迭代网络扩展到 5000 层，用于极长期规划

DT-VIN 通过增加动态转移内核和引入自适应高速公路损失来提高价值迭代网络在强化学习中规划的表达能力和解决长期大规模规划任务的能力。

Jun, 2024

马尔可夫决策过程的几何策略迭代

探究了有限状态 - 动作折扣马尔可夫决策过程的价值函数多面体结构，并使用超平面排列表征了多面体的边界。提出了一种新的算法 Geometric Policy Iteration (GPI) 来解决折扣 MDPs，它使用单个状态的策略更新，以更快的价值改进不影响计算效率，同时允许状态值的异步更新。证明了 GPI 的复杂度达到了策略迭代的最佳已知界限，并展示了 GPI 在各种大小的 MDPs 上的优越性。

Jun, 2022

马尔可夫决策过程验证学习算法

提出了一个泛用的框架，应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP)，主要关注概率可达性问题，包括精确和近似的情况，不受时间限制或折扣因子等条件的限制。

Mar, 2024