一个适用于单调价值函数的近似动态规划算法

Jan, 2014

一个适用于单调价值函数的近似动态规划算法

An Approximate Dynamic Programming Algorithm for Monotone Value Functions

Daniel R. Jiang, Warren B. Powell

TL;DR提出了一种名为 Monotone-ADP 的算法，利用价值函数的单调性来提高收敛速度，在三个应用领域中展示了数值结果，可以用比计算最优解所需计算量少两个数量级的迭代次数获得高质量解决方案。

Abstract

Many sequential decision problems can be formulated as Markov Decision Processes (MDPs) where the optimal value function (or cost-to-go function) can be shown to satisfy a monotone structure in some or all of its dimensions. When the state space becomes large, traditional techniques, such as the backward dynamic programming algorithm (i.e., backward inductio

markov decision processes approximate dynamic programming monotone-adp energy storage glycemic control

发现论文，激发创造

通过冻结慢状态实现更快的近似动态规划

论文提出了一种基于动态规划算法框架的近似方法，针对具有快慢结构的无穷状态空间的马尔可夫决策过程，其中 “冻结” 慢状态，通过解决一组简单的有限时段 MDP 以及在一个慢时间尺度（上层 MDP）上进行价值迭代的辅助 MDP 等步骤，生成有效策略，以更少的计算代价实现了决策建模中遗漏慢状态的可行性。

Jan, 2023

通过最小化分布健壮边界来近似动态规划

本文描述了一种新的近似动态规划方法 —— 分布式鲁棒性近似动态规划，通过最小化对策略损失的悲观界限来解决维度灾难，将 ADP 转化为优化问题，提高了现有 ADP 方法的理论保证。 DRADP 保证收敛和基于 L1 范数的误差界限，并在基准问题上展示了良好的性能表现。

May, 2012

离散与连续状态 MDP 的符号动态规划

本文介绍了符号动态规划（SDP）技术的扩展，提供了一种能够处理离散和连续状态的马尔可夫决策过程（DC-MDP）的最优解决方案，在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划，从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。

Feb, 2012

一阶 MDP 的近似线性规划

本文提出了一种基于线性规划的解决方法，通过将价值函数在一组一阶基函数的线性表示中计算适当的权值，解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面，具有丰富的特征空间和多标准加性奖励，证明了其优于许多直观、启发式指导政策。

Jul, 2012

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

分解型 MDPs 的策略迭代

该论文提出了一种新的价值确定方法，借助简单的闭合计算来直接计算价值函数的分解逼近，以及一个基于此方法的策略迭代过程。

Jan, 2013

经验动态规划

本文提出了用于马尔可夫决策过程的经验动态规划算法，并介绍了概率不变点的概念和收敛分析的随机优势框架。实验结果表明，这些算法可以比随机逼近算法更快地收敛。

Nov, 2013

一种基于增量采样的随机最优控制算法

本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Feb, 2012

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

SPUDD：使用决策图的随机计划

本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法，并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中，相较于树形结构表示方式大幅降低了节点数量。

Jan, 2013