May, 2023

时序马尔可夫决策过程中的在线资源分配

TL;DR本文研究了一个多期的长期资源分配问题,其中每个周期需要一个多阶段的决策过程。我们将此问题定义为具有未知非平稳转换和随机非平稳奖励和资源消耗函数的离散时段有限马尔可夫决策过程的在线资源分配问题。我们提出了一种基于占用度量的等效在线线性规划重构方法,并开发了一种在线镜像下降算法。我们证明,在随机奖励和资源消耗函数下,在线镜像下降算法的期望遗憾值受到了限制。