马尔可夫决策过程中无界每步成本的模型近似

Feb, 2024

马尔可夫决策过程中无界每步成本的模型近似

Model approximation in MDPs with unbounded per-step cost

Berk Bozkurt, Aditya Mahajan, Ashutosh Nayyar, Yi Ouyang

TL;DR设计控制策略时，我们考虑在只有近似模型的情况下对无限时域折扣成本马尔可夫决策过程进行控制。对于在原始模型中使用近似模型的最优策略的性能如何，在原始模型中使用的近似模型的价值函数与原始模型的最优价值函数之间的差异的加权范数提供了上界的边界。通过考虑每步成本的仿射变换，我们进一步提供了可能更紧密的上界，并且上界明确取决于原始模型和近似模型之间成本函数和状态转移核之间的加权距离。我们提供示例以说明我们的结果。

Abstract

We consider the problem of designing a control policy for an infinite-horizon discounted cost markov decision process $\mathcal{M}$ when we only have access to an →

control policy markov decision process approximate model value function upper bounds

发现论文，激发创造

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

健壮马氏决策过程中高效锐利的离策略评估

在环境变化、干扰函数估计不一致和有限样本学习的情况下，本研究旨在评估策略值，并提出了一种扰动模型，可以根据转移观测对传统 MDP 进行边界估计。

Mar, 2024

具有约束条件的无限时间平均奖励马尔可夫决策过程学习

本研究提出了一种政策优化算法，用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题，该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率，并将其推广到弱通信 MDP 领域，为该领域提供了复杂度可行的算法。

Jan, 2022

Lipschitz 可配置马尔可夫决策过程的性能改进界限

研究了满足 Lipschitz 连续性的 Configurable Markov Decision Processes（Conf-MDPs）的性能改进下界。

Feb, 2024

基于分解线性模型的模型导向强化学习的策略误差界

本研究采用基于模型的方法研究在马尔科夫决策过程中计算近似最优策略的问题。我们用一种类似于线性模型的模型导出政策时的损失进行了计算，并给出了多种模型的性能界限。与其他方法导出的类似界限不同的是，我们的界限对折现因子变化不敏感，并且不受度量不匹配的影响。我们的证明基于压缩空间内运算符的收缩论证，采用构建于 Banach 格上的精心设计的范数来加强之前方法的预设。

Feb, 2016

带 Borel 空间的马尔科夫决策过程的有限逼近的渐近最优性

本文针对局限于有限状态下的马尔可夫决策过程，对于包括折扣和平均成本标准在内的情况进行了研究，获得了近似最优策略，使用预处理步骤将操作空间有限近似，可以使用众所周知的算法计算近似最优政策。

Mar, 2015

大规模马尔可夫决策问题的线性规划

本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题，并使用线性规划和两种方法，即基于随机凸优化和基于约束采样的方法，将性能提高到与在低维策略类中的任何策略相比的最佳水平。

Feb, 2014

鲁棒马尔科夫决策过程的一阶策略优化

研究如何解决具有不确定转移内核的折现，有限状态，有限行动空间 MDP 的强鲁棒性问题，旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比，本文提出了一个名为 RPMD 的策略型一阶方法，并对于两种递增步长的情形，建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。

Sep, 2022

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法，使用乐观原则和假设 MDP 具有线性结构，提出具有优化的计算效率的算法，并展开了详细的分析，改进了现有最佳结果。

Jul, 2020

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019