Feb, 2021

极小化离线强化学习的有限样本分析:完备性,快速速率和一阶效率

TL;DR本文从函数逼近和 $q$ 函数的角度,通过最新的极小极大方法对离线策略评估 (OPE) 在强化学习中进行了理论刻画,并基于此结果分析了 OPE 的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。