Oct, 2023

学习鉴别:偏好与表示学习中的模仿异质人类示范

TL;DR本文介绍了一种离线模仿学习框架,Learning to Discern (L2D),用于从具有多样化质量和风格的演示中学习。通过在潜在空间中进行偏好学习,我们能够对不同风格的新演示进行评估和学习,从而提高各种任务的策略性能。