May, 2024

视频 - 语言评论家:用于语言条件机器人的可转移奖励函数

TL;DR基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用 Meta-World 上的具有挑战性任务推广设置的领域数据进一步证明,相比先前使用二元分类训练的语言条件奖励模型,静态图像或不利用视频数据中的时间信息,我们的方法实现了更高效的训练。