BriefGPT.xyz
Feb, 2020
线性函数逼近下的最小化最优离线策略评估
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation
HTML
PDF
Yaqi Duan, Mengdi Wang
TL;DR
本文研究利用函数逼近的批量数据强化学习的统计理论,针对离线策略评估问题提出了基于回归的适应Q迭代方法,证明该方法是信息理论上的最优方法,错误估计接近最小,进而提供容易计算的置信区间,该方法在乐观规划和安全策略改进中可能有用
Abstract
This paper studies the statistical theory of
batch data
reinforcement learning
with function approximation. Consider the
off-policy evaluation
→