ICLRApr, 2021

离线策略评估和优化的自回归动态模型

TL;DR提出了一种基于自回归动力学模型的控制模型,分析了其在离线数据集 RL Unplugged 中的表现,证明其在策略优化中具有潜在应用。