Apr, 2023
一种考虑长期约束条件的受限MDPs的最佳算法
A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term
Constraints
Jacopo Germano, Francesco Emanuele Stradi, Gianmarco Genalti, Matteo Castiglioni, Alberto Marchesi...
TL;DR该论文研究使用在线学习算法在约束马尔可夫决策过程中收集奖励的同时确保满足某些长期约束条件,提出了一种适用于约束性马尔可夫决策过程的最佳算法,能够管理随机和敌对条件下的奖励以及约束,并提供了理论保证。