ICLRMar, 2022

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

TL;DR利用线性模型表示形式研究离线强化学习的统计学限制,提出方差感知悲观值迭代算法,重新权重贝尔曼残差以提高离线学习界限。