RT-H: 使用语言的动作层次结构

Mar, 2024

RT-H: Action Hierarchies Using Language

Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong...

TL;DR通过使用语言动作，桥接任务和动作，实现从人类介入中学习的灵活策略，并展示了这些策略在多任务数据集上的鲁棒性和灵活性。

Abstract

Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure o

robot imitation learning language-conditioned policies multi-task datasets language motions action hierarchy

发现论文，激发创造

RT-2：视觉 - 语言 - 行动模型将网络知识转化为机器人控制

通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以 RT-2 为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2 可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Jul, 2023

语言条件下的机器人操作任务模仿学习

这篇研究论文介绍了一种将自然语言引入模仿学习中的方法，可以让专家在提供动作演示的同时，提供自然语言的描述。通过融合语言、知觉和动作的关系，实现了更加精细的控制，降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明，此方法可有效学习自然语言条件下的机器人操作策略，并与其他方法相比做出了明显改进。

Oct, 2020

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

喊叫您的机器人：从语言纠正中实时改进

通过语言反馈不断改进高层策略，使机器人在复杂的、需要长程规划的任务中表现得更加出色，无需额外的远程操作。

Mar, 2024

语言条件下的机器人模仿学习对非结构化数据的影响因素

本研究旨在从自然语言文本中获取信息，进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题，来提出一种有效的机器人控制学习方法，该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时，我们使用所提出的方法，成功地在机器人 CALVIN 基准测试中，超越了现有研究成果。

Apr, 2022

精确高效地解读不同粒度的人机指令

本研究通过将命令与层级规划框架中所有可用的任务或子任务联系起来，实现了一种能够在多个抽象层级上解释语言的模型。该方法提高了命令的准确性和机器人的响应速度，使机器人可以高效地在不同的任务抽象层次上进行规划。

Apr, 2017

面向机器人操作的指导驱动历史感知策略

本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察，以提高机器人的精准操作，并在 RLBench 基准测试中成功实现 74 项任务，还表现出对未曾见过变化的任务的良好泛化性能。

Sep, 2022

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

基于语言条件的结构化数据模仿学习

通过自然语言条件化的模拟学习方法，结合像素感知、自然语言理解和多任务连续控制的神经网络，可以在无需任务或语言标签的情况下，显著提高任务成果，同时将语言注释成本降低到总数据量的不到 1％。

May, 2020