May, 2024

对抗性马尔可夫决策过程在线学习的乐观遗憾界限

TL;DR引入并研究了AMDP的新变体,该变体旨在最小化后悔同时利用一组成本预测器并开发了一种新的策略搜索方法,可在高概率下实现亚线性的乐观后悔界限。