在平均回报MDPs中实现可行的最小最优后悔

Jun, 2024

在平均回报MDPs中实现可行的最小最优后悔

Achieving Tractable Minimax Optimal Regret in Average Reward MDPs

Victor Boone, Zihan Zhang

TL;DR这篇论文介绍了一种具有最小最大后悔度的可行算法，该算法通过使用一种新颖的子程序，即Projected Mitigated Extended Value Iteration（PMEVI），来高效地计算偏差受限最优策略。同时，该算法不需要先前关于偏差函数的信息。

Abstract

In recent years, significant attention has been directed towards learning average-reward markov decision processes (MDPs). However, existing algorithms either suffer from sub-optimal regret guarantees or