May, 2024
学习具有非静态奖励和约束条件的受限马尔可夫决策过程
Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints
Francesco Emanuele Stradi, Anna Lunghi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti
TL;DR通过提供性能逐渐降低的算法,在具有非平稳奖励和约束的受限马尔可夫决策过程中缓解了在与最佳策略竞争时达到亚线性遗憾和亚线性约束违规的关键不可能结果。