Feb, 2021

极小化离线强化学习的有限样本分析:完备性,快速速率和一阶效率

TL;DR本文从函数逼近和$q$函数的角度,通过最新的极小极大方法对离线策略评估(OPE)在强化学习中进行了理论刻画,并基于此结果分析了OPE的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。