Apr, 2023

在线强化学习中一般覆盖条件在有效函数逼近中的可证明优势

TL;DR本研究聚焦于在线强化学习中,使用一定的覆盖条件能够确保样本高效,通过挖掘更多的覆盖条件,研究了其在提高样本效率方面的潜力和效用,进一步证明使用覆盖条件能够实现在线强化学习的高效性,包括 $L^p$ 集中性方差实现、密度比实现、偏差/休息覆盖条件的权衡以及基于探索性离线数据使用统计和计算有效保证等。