ICLRMar, 2022
利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习
Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism
Ming Yin, Yaqi Duan, Mengdi Wang, Yu-Xiang Wang
TL;DR利用线性模型表示形式研究离线强化学习的统计学限制,提出方差感知悲观值迭代算法,重新权重贝尔曼残差以提高离线学习界限。