Oct, 2023

在真实环境中微调离线世界模型

TL;DR通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉-动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。