Jul, 2023

对比例子为基础的控制

TL;DR基于示例的学习方法提出了一种离线控制方法,该方法学习了一个隐式模型来表示多步转变的 Q 值,并在状态和图像离线控制任务中优于基准方法并展现了对数据集规模的提升和鲁棒性。