ICMLFeb, 2022

离线强化学习的悲观 Q 学习:朝着最优样本复杂性的方向

TL;DR本文研究了离线强化学习的一个悲观策略 Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。