May, 2024

LARM: 面向长期视角具身智能的大型自回归模型

TL;DR为了解决大型语言模型机器人在特定行动中的限制,本论文提出了一种新的大型自回归模型(LARM),该模型利用文本和多视图图像作为输入并以自回归方式预测后续行动。通过采用自回归节点传输结构的新数据格式和对应的数据集训练 LARM,成功实现了在 Minecraft 中获取更复杂的装备的决策过程。此外,LARM 的速度提高了 6.8 倍。