Feb, 2024

马尔可夫决策过程中无界每步成本的模型近似

TL;DR设计控制策略时,我们考虑在只有近似模型的情况下对无限时域折扣成本马尔可夫决策过程进行控制。对于在原始模型中使用近似模型的最优策略的性能如何,在原始模型中使用的近似模型的价值函数与原始模型的最优价值函数之间的差异的加权范数提供了上界的边界。通过考虑每步成本的仿射变换,我们进一步提供了可能更紧密的上界,并且上界明确取决于原始模型和近似模型之间成本函数和状态转移核之间的加权距离。我们提供示例以说明我们的结果。