Jun, 2022

基于模型的离线模仿学习与非专家数据

TL;DR通过利用最优和次优策略收集的数据集,我们提出了一种可扩展的基于模型的离线模仿学习算法框架,其最坏子优性与专家样本相关的时间视野呈线性,实验证明在模拟连续控制领域中,该算法始终表现优于行为克隆。