Jun, 2021

线性函数逼近下的方差感知离线评估

TL;DR本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率,其中针对非时变线性马尔可夫决策过程(MDPs),提出了 VA-OPE 算法,使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权,并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述,而广泛的数值实验也支持了我们的理论。