ICLRApr, 2021
离线策略评估和优化的自回归动态模型
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization
Michael R. Zhang, Tom Le Paine, Ofir Nachum, Cosmin Paduraru, George Tucker...
TL;DR提出了一种基于自回归动力学模型的控制模型,分析了其在离线数据集 RL Unplugged 中的表现,证明其在策略优化中具有潜在应用。