Nov, 2020

针对折扣设置的Wang-Foster-Kakade下限变形

TL;DR本文研究了在有限时间和与折扣因素相关的情况下,批量强化学习中价值函数和特征覆盖的硬度,并说明了即使有无限数量的数据,学习也无法进行。