May, 2024

学习具有非静态奖励和约束条件的受限马尔可夫决策过程

TL;DR通过提供性能逐渐降低的算法,在具有非平稳奖励和约束的受限马尔可夫决策过程中缓解了在与最佳策略竞争时达到亚线性遗憾和亚线性约束违规的关键不可能结果。