Oct, 2021

TRAIL: 近乎最优的次优数据模仿学习

TL;DR本研究提出了一种利用离线数据集学习隐含动作空间和转换模型的训练目标,通过此目标实现提高下游模仿学习的样本效率,该目标可用于廉价的次优或非任务特异性轨迹数据集。TRAIL 算法是一种能够增加样本效率的模型,其能通过学习基于能量的转换模型,对动作空间进行重新参数化,同时结合离线数据集和得到的隐含动作空间,优化模仿学习。实验结果表明,TRAIL 能够使得基线模仿学习的性能提高 4 倍。