Oct, 2023
学习鉴别:偏好与表示学习中的模仿异质人类示范
Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning
Sachit Kuhar, Shuo Cheng, Shivang Chopra, Matthew Bronars, Danfei Xu
TL;DR本文介绍了一种离线模仿学习框架,Learning to Discern (L2D),用于从具有多样化质量和风格的演示中学习。通过在潜在空间中进行偏好学习,我们能够对不同风格的新演示进行评估和学习,从而提高各种任务的策略性能。