ICMLDec, 2020

批量强化学习的指数下界:相比在线强化学习,批量强化学习可能更加困难

TL;DR本文介绍了在具有线性函数表示的情况下,在折扣无限时间 M​​DPs 中分别对策略和目标策略的价值进行估计时,即使存在实现性并观察到精确奖励和转移函数以及为问题类提供最佳先验数据分布,也派生出指数的信息论下限,并引入了一个新的 “oracle+ batch algorithm” 框架来证明适用于每个分布的底限。工作显示了批处理和在线强化学习之间的指数分离。