Sep, 2023

通过价值函数预训练的互联网视频机器人离线强化学习

TL;DR本研究通过开发一种基于时间差分学习的系统,在机器人离线增强学习中利用大规模人类视频数据集,展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性,并且与机器人多样化数据的离线增强学习方法结合,产生在操作任务中执行更好、更稳定和具有广泛泛化性能的价值函数和策略。