Dec, 2023

QUAR-VLA:四足机器人的视觉 - 语言 - 动作模型

TL;DR机器人智能的重要体现是自然互动和自主决策能力,本文引入了一种名为四足机器人视觉语言行为任务(QUAR-VLA)的新范式,通过紧密集成视觉信息和指令生成可执行动作来提高机器人的整体智能,使用 QUAdruped Robotic Transformer(QUART)系列模型将来自不同模态的视觉信息和指令作为输入,为真实世界的机器人生成可执行的动作,并提出了 QUAdruped Robot Dataset(QUARD)用于训练 QUART 模型,我们的广泛评估表明,我们的方法可以得到性能良好的机器人策略,并使 QUART 获得一系列新兴能力。