May, 2024

视频-语言评论家: 用于语言条件机器人的可转移奖励函数

TL;DR基于视频-语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中,通过在Open X-Embodiment数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明,相比先前使用二元分类训练的语言条件奖励模型,静态图像或不利用视频数据中的时间信息,我们的方法实现了更高效的训练。