Feb, 2020

线性函数逼近下的最小化最优离线策略评估

TL;DR本文研究利用函数逼近的批量数据强化学习的统计理论,针对离线策略评估问题提出了基于回归的适应 Q 迭代方法,证明该方法是信息理论上的最优方法,错误估计接近最小,进而提供容易计算的置信区间,该方法在乐观规划和安全策略改进中可能有用