Jun, 2021

XIRL: 跨具象反向强化学习

TL;DR该研究旨在通过自我监督的方法,使用跨代理之间的演示视频来自动发现和学习视觉奖励函数,以训练在不同体型和动作的情况下进行任务的智能体。研究结果表明,这种方法不仅提高了效率,还具有良好的泛化性能。