ICMLJul, 2021

离线基于偏好的学徒学习

TL;DR该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法,该方法不需要真实物理试验或准确的模拟器,并能够学习完成离线数据未曾显示的新任务。