Oct, 2020

线性函数逼近离线强化学习的统计限制是什么?

TL;DR本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。