Oct, 2024

来自视频的潜在动作预训练

TL;DR本研究解决了现有视觉-语言-动作模型依赖于人工标签的问题,提出了一种从无标签互联网视频中学习的潜在动作预训练方法(LAPA)。该方法通过训练动作量化模型学习离散潜在动作,并在小规模机器人操作数据上微调模型,实验证明其在实际操作任务中显著优于现有技术,展现了利用网络规模数据进行机器人基础模型训练的潜力。