Apr, 2023

一种考虑长期约束条件的受限 MDPs 的最佳算法

TL;DR该论文研究使用在线学习算法在约束马尔可夫决策过程中收集奖励的同时确保满足某些长期约束条件,提出了一种适用于约束性马尔可夫决策过程的最佳算法,能够管理随机和敌对条件下的奖励以及约束,并提供了理论保证。