May, 2024

MetaCURL: 非平稳凹效用强化学习

TL;DR我们通过元算法和专家集成的方法在非平稳环境(变换的损失和概率转换)中探索在线学习在无环节马尔可夫决策过程中的应用,重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下,不需要先验的 MDP 更改知识,实现最优的动态遗憾,处理了全面对抗的损失而不仅仅是随机的。我们认为我们处理专家管理非平稳性的方法对强化学习社区具有一定的利益。