Feb, 2022

一种基于排名的模仿学习游戏

TL;DR本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架,并使用一种新型排名误差来实例化该框架,从而同时学习专家演示和偏好,实现了两种模态的优势,并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。