RT-2：视觉-语言-行动模型将网络知识转化为机器人控制

Jul, 2023

RT-2：视觉-语言-行动模型将网络知识转化为机器人控制

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen...

TL;DR通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以RT-2为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使RT-2在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Abstract

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enabl