Jun, 2021

通过离线数据缓解模仿学习中的协变量漂移

TL;DR本研究基于静态离线数据,提出了 MILO 框架及算法,用于高效解决无需在线交互式的模仿学习问题,其能够成功应对较弱行为准则下的状态行为的偏移问题,最终成功模仿高水平行为准则的动作。