一般马尔可夫决策过程的加权网格算法：收敛性与可计算性

Jun, 2024

一般马尔可夫决策过程的加权网格算法：收敛性与可计算性

Weighted mesh algorithms for general Markov decision processes: Convergence and tractability

Denis Belomestny, John Schoenmakers

TL;DR我们引入了一种网格型方法来解决具有一般特征的离散时间有限时间马尔科夫决策过程（MDPs），该过程具有一般的状态和动作空间，包括欧几里得空间的有限和无限（但合适地规则的）子集。

Abstract

We introduce a mesh-type approach for tackling discrete-time, finite-horizon markov decision processes (MDPs) characterized by state and action spaces that are general, encompassing both finite and infinite (yet

mesh-type approach markov decision processes tractable computational complexity semi-tractable algorithm linear-quadratic gaussian control problems

发现论文，激发创造

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

稀疏奖励确定性马尔可夫决策过程的快速在线精确解法

介绍了一种新的方法，确切高效地解决了具有稀疏奖励来源的确定性连续 MDP 问题，可以提高在机器人和无人系统等领域的应用价值，减少计算复杂度。

May, 2018

带 Borel 空间的马尔科夫决策过程的有限逼近的渐近最优性

本文针对局限于有限状态下的马尔可夫决策过程，对于包括折扣和平均成本标准在内的情况进行了研究，获得了近似最优策略，使用预处理步骤将操作空间有限近似，可以使用众所周知的算法计算近似最优政策。

Mar, 2015

用于计算马尔可夫决策过程近似最优解的模型简化技术

介绍了一种新方法，用于解决具有非常大状态空间的隐式（分解式）马尔可夫决策流程（MDPs）。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的 BMDP 以分析大型隐式 MDPs。

Feb, 2013

马尔可夫决策过程验证学习算法

提出了一个泛用的框架，应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP)，主要关注概率可达性问题，包括精确和近似的情况，不受时间限制或折扣因子等条件的限制。

Mar, 2024

约束马尔可夫决策过程的原始对偶方法

本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Jan, 2021

卷积投影：连续空间马尔可夫决策过程中强化学习的最佳样本复杂度

学习连续空间马尔可夫决策过程中的 ε- 最优策略问题，在具有光滑 Bellman 算子的一般类别中，通过使用正交三角多项式特征的简单的扰动最小二乘值迭代，并结合基于谐波分析的新型投影技术，实现了速率最优的样本复杂性。

May, 2024

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019

马尔可夫决策过程中的主动模型估计

本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题，提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题，并在简单的具有异构噪音的两个问题上进行了验证。

Mar, 2020

多维马尔可夫决策过程中的百分位查询

本文研究带有多维权重的马尔可夫决策过程中百分位查询的复杂性，并给出了算法以综合满足这样的限制的策略，扩展了 Etessami 等人在非加权 MDPs 上研究的多目标模型检查问题到数量级问题。

Oct, 2014