ICLRMar, 2024

线性马尔可夫决策过程的无界遗憾

TL;DR近期一些研究工作展示了强化学习中降低后悔的边界可以(几乎)与计划周期无关,即所谓的无周期边界。然而,这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置,例如表格型马尔科夫决策过程(MDP)和线性混合 MDP。我们给出了流行的线性 MDP 设置的首个无周期边界,其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比,该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数,而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器,该方法获得了无周期边界,并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。