Jun, 2024

在平均回报 MDPs 中实现可行的最小最优后悔

TL;DR这篇论文介绍了一种具有最小最大后悔度的可行算法,该算法通过使用一种新颖的子程序,即 Projected Mitigated Extended Value Iteration(PMEVI),来高效地计算偏差受限最优策略。同时,该算法不需要先前关于偏差函数的信息。