极小化离线强化学习的有限样本分析：完备性，快速速率和一阶效率

Feb, 2021

Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency

Masatoshi Uehara, Masaaki Imaizumi, Nan Jiang, Nathan Kallus, Wen Sun...

TL;DR本文从函数逼近和$q$函数的角度，通过最新的极小极大方法对离线策略评估(OPE)在强化学习中进行了理论刻画，并基于此结果分析了OPE的收敛速度和新的完备条件，提出了第一种在非表格环境下具有一阶效率的有限样本结果。

Abstract

We offer a theoretical characterization of off-policy evaluation (OPE) in reinforcement learning using function approximation for marginal