AutoRT: 机器人代理大规模编排的体现模型
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
通过引入多模态基础世界模型,GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐,从而克服了现有基础视觉语言模型在不同领域上的问题,并在多个运动和操作领域展现了强大的多任务泛化性能。此外,通过引入无数据强化学习策略,还为通用性的综合模型基于强化学习的全能代理奠定了基础。
Jun, 2024
本论文提出了一种利用大型语言模型进行机器人交互的方法,用于解决理解语义知识和实现机器人任务之间的矛盾问题,其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势,通过指导解码策略可以实现复杂的机器人长视程任务。
Mar, 2023
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
本文提出了一种基于语言根据分割掩模的新型范例,来应对日常情况下一系列的抓取和放置机器人操作任务,通过将从掩模中传达的精确语义和几何形状与我们的多视点策略模型相结合,使我们的方法能够感知准确的物体姿态并实现样本高效学习。
Jun, 2023
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力,我们设计了一个框架,将语言作为核心推理工具,能够处理一系列强化学习挑战,如有效的探索、重用经验数据、调度技能以及从观察中学习,从而改进了在模拟的机器人操作环境中的性能,并展示了如何利用学到的技能解决新任务或模仿人类专家视频。
Jul, 2023