Oct, 2023

机器人的精细调整简化:自主现实世界强化学习的预训练奖励和策略

TL;DR通过使用预训练和微调范式,我们引入RoboFuME系统,利用网络上的数据和模型,允许机器人在几乎没有人工干预的情况下学习新任务,并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器,在线进行微调并提供奖励信号,从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中,我们的方法表现出色。