Jan, 2021

离线强化学习遗憾的快速速率

TL;DR本文研究了从固定行为策略生成的线下数据中学习无限时间折扣马尔可夫决策过程中的后悔问题,分析了$Q$-iteration(FQI)等常见方法的后悔收敛速度,并提供了较快的收敛率。其中,一种可行的方法是根据最优质量函数的任何估计,定义的策略的后悔以指数形式收敛于 $Q^*$ ,使其加速;同时,建立了这种噪声水平在线性和表形 MDP 中的应用。