May, 2023

双重悲观主义在分布式鲁棒离线强化学习中证明有效:通用算法与鲁棒部分覆盖

TL;DR本研究提出了一个新的算法框架用于分布鲁棒离线强化学习,该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤,其关键在于通过特定的模型估计子程序,提高离线数据集对鲁棒策略的覆盖度,从而有效克服分布偏移问题,并在多种函数逼近近似方法中得到了良好地应用。