Aug, 2020

带安全约束的学习:有约束 MDP 的强化学习样本复杂度

TL;DR研究未知的CMDP和两种RL算法的关系,在满足安全约束的情况下,探索样本复杂性。结果表明,相对于不受约束的情况,受约束的RL算法的样本复杂性增加的因子是约束数量的对数,该方法可以在实际系统中轻松使用。