经验动态规划

Nov, 2013

Empirical Dynamic Programming

William B. Haskell, Rahul Jain, Dileep Kalathil

TL;DR本文提出了用于马尔可夫决策过程的经验动态规划算法，并介绍了概率不变点的概念和收敛分析的随机优势框架。实验结果表明，这些算法可以比随机逼近算法更快地收敛。

Abstract

We propose empirical dynamic programming algorithms for Markov decision processes (MDPs). In these algorithms, the exact expectation in the Bellman operator in classical value iteration is replaced by an empirical estimate to get `empirical value iteration' (EVI). Policy evaluation and

empirical dynamic programming markov decision processes probabilistic fixed points convergence analysis stochastic dominance framework

发现论文，激发创造

连续 MDP 的实证动态规划算法

本篇研究提出了一种基于随机函数逼近的经验价值迭代算法，使用参数和非参数函数逼近方法结合以处理马尔科夫决策过程，并在随机操作的框架下进行收敛分析和样本复杂度估计。

Sep, 2017

动态策略编程

本文提出了一种新的策略迭代方法 —— 动态策略规划（DPP），用于在无限时间马尔可夫决策过程（MDP）中估计最优策略，证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界，通过数值实验表明，与现有的强化学习方法相比，在所有情况下，基于 DPP 的算法表现出更好的性能。

Apr, 2010

一个适用于单调价值函数的近似动态规划算法

提出了一种名为 Monotone-ADP 的算法，利用价值函数的单调性来提高收敛速度，在三个应用领域中展示了数值结果，可以用比计算最优解所需计算量少两个数量级的迭代次数获得高质量解决方案。

Jan, 2014

近似改进策略迭代

本文旨在探讨 Modified Policy Iteration（MPI）算法的近似形式，提出了三种扩展的适应于大规模状态和动作空间的 DP 算法，包括拟合值迭代、拟合 Q 迭代和基于分类的策略迭代，并提供了统一的误差传播分析方法。同时，对于基于分类的实现，发展了有限样本分析，以显示 MPI 的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。

May, 2012

政策迭代的复杂性

本文研究关于 Markov 决策过程的策略迭代算法的收敛性和复杂度，提出了一种复杂度上界的限制方法，不依赖于折扣因子的价值，有效地限制了策略迭代算法收敛至最优策略所需的迭代次数。

Jan, 2013

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

无限时间马尔可夫决策过程解决方案的形式验证方法

本文利用交互式定理证明器 Isabelle/HOL，对于解决马尔科夫决策过程（MDPs）的可执行算法进行正式验证，并基于此分析验证动态规划算法来解决表格 MDPs，实验结果表明该系统可以与最先进的系统竞争甚至超过它们。

Jun, 2022

Lambda-Policy Iteration: 评述与新实现

本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代，并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外，讨论了多种基于此方法的实现，其中一种实现是基于一种新的模拟方案，称为几何采样。

Jul, 2015

策略迭代最坏情况复杂度的改进界

本文主要探讨关于马尔可夫决策过程解决方案的复杂度问题，研究表明，虽然使用线性规划技术解决方案可以在多项式时间内完成，但使用迭代方法，如策略迭代算法，通常在实践中更高效。同时，本文提出了关于策略迭代算法收敛步数的改进，得出了一个更合理的上限。

Oct, 2014

SPUDD：使用决策图的随机计划

本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法，并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中，相较于树形结构表示方式大幅降低了节点数量。

Jan, 2013