Feb, 2020

在约束条件下的马尔可夫决策过程学习

TL;DR本文研究如何在满足成本平均值约束条件下,通过设计基于模型的强化学习算法,从而最大化累积奖励,同时确保每个成本值的平均值被绑定在特定的上界之内。此外,我们提出了一种衡量强化学习算法表现的方法,即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异,并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O(T ^ {2/3}).