Jun, 2024

LLARVA: 视觉动作指令调整增强机器人学习

TL;DR通过使用纯指令调整的 Large Multimodal Models(LMMs),我们引入了 LLARVA 模型,该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境,并且利用预测中间的 2D 表达,即“视觉迹线”,进一步对齐了视觉和动作空间,使得模型在不同的机器人环境和配置中得到了较好的泛化性能。