Feb, 2021
极小化离线强化学习的有限样本分析:完备性,快速速率和一阶效率
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency
Masatoshi Uehara, Masaaki Imaizumi, Nan Jiang, Nathan Kallus, Wen Sun...
TL;DR本文从函数逼近和 $q$ 函数的角度,通过最新的极小极大方法对离线策略评估 (OPE) 在强化学习中进行了理论刻画,并基于此结果分析了 OPE 的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。