Mar, 2024

学习具有随机硬约束的对抗式马尔可夫决策过程

TL;DR我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般CMDP中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法,确保次线性遗憾的同时,高概率满足所有回合的约束。据我们所知,我们的工作是第一个研究同时涉及对抗性损失和硬约束的CMDP。这些算法可处理一般非平稳环境中的要求,要求比现有算法处理的要严格得多,从而能够在更广范围的实际应用中采用,包括自动驾驶、在线广告和推荐系统。