基于下一个令牌预测的上下文模仿学习

Aug, 2024

基于下一个令牌预测的上下文模仿学习

In-Context Imitation Learning via Next-Token Prediction

Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch...

TL;DR本研究解决了如何通过上下文信息在真实机器人上实现模仿学习的问题。我们提出了一种创新的因果变换器模型ICRT，该模型能够在不依赖语言数据或奖励函数的情况下，灵活执行新任务。实验表明，ICRT在处理前所未见的任务时显著优于现有的下一令牌预测模型，显示出强大的适应性与泛化能力。

Abstract

We explore how to enhance Next-Token Prediction models to perform in-context Imitation Learning on a real robot, where the robot executes new tasks by interpreting contextual information provided during the input

发现论文，激发创造

通过上下文翻译从原始视频中学习模仿行为

本研究提出了一种基于视频预测、上下文转换和深度强化学习的“观察型模仿学习”方法，该方法消除了标准模仿学习对于完全相同环境的假设，并能够从一个演示者的视频中学习各种现实世界中的机器人技能，涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。

Jul, 2017

语言条件下的机器人操作任务模仿学习

这篇研究论文介绍了一种将自然语言引入模仿学习中的方法，可以让专家在提供动作演示的同时，提供自然语言的描述。通过融合语言、知觉和动作的关系，实现了更加精细的控制，降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明，此方法可有效学习自然语言条件下的机器人操作策略，并与其他方法相比做出了明显改进。

Oct, 2020

一次即视视觉模仿的变形金刚

本文介绍了一种使用神经网络和Transformer 注意机制的方法，通过向机器人展示上下文视频来缩小机器人学习中的领域差距，并实现了对单次操作任务的2倍成功率提升。

Nov, 2020

语言条件下的机器人模仿学习对非结构化数据的影响因素

本研究旨在从自然语言文本中获取信息，进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题，来提出一种有效的机器人控制学习方法，该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时，我们使用所提出的方法，成功地在机器人CALVIN基准测试中，超越了现有研究成果。

Apr, 2022

基于基本技能先验的语言条件下的非结构化数据模仿学习

本研究通过语言条件机器人操作来提高算法在适应不熟悉环境中的泛化能力。在模拟环境和真实世界中的测试中，实验证明该方法的平均完成任务长度比HULC方法提高多达2.5倍，并且在真实世界的测试中也取得了相当好的表现。

May, 2023

机器人传感运动预训练学习

该论文提出了一种自监督的感知动作预训练方法，称为RPT，使用转换器操作传感动作令牌的序列，能够处理latent视觉表示，能够扩展到10倍大型模型，并可在真正的机器人上实现10 Hz的推断。

Jun, 2023

PASTA：预训练的动作-状态Transformer代理

通过自我监督学习，本研究建立了一种预训练行为-状态Transformer代理模型（PASTA），并在行为克隆、离线RL、传感器故障鲁棒性以及动态变化适应等广泛领域的下游任务中进行了综合研究和比较设计选择，以提供有价值的见解给从业者，从而构建更加鲁棒的模型并推动RL策略学习的发展。

Jul, 2023

通过隐式图对齐进行少样本上下文内模仿学习

通过将模仿学习作为对象图表示之间条件对齐问题来解决机器人在新对象上学习任务的困难，使得机器人能够在示范之后立即在一组新对象上执行任务，无需先验知识或进一步训练。

Oct, 2023

人形机器人运动的下一个令牌预测

我们将真实世界中的人形控制视为下一个令牌预测问题，类似于预测语言中的下一个单词。我们的模型是一个因果变换器，通过自回归预测感觉运动轨迹来进行训练。为了考虑数据的多模态性，我们以一种模态对齐的方式进行预测，并且对于每个输入令牌，从相同的模态中预测下一个令牌。这个一般性的公式使我们能够利用缺少模态的数据，例如没有行动的视频轨迹。我们使用来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和人类的YouTube视频的模拟轨迹进行模型训练。我们展示了我们的模型使得一个真实尺寸的人形能够在旧金山进行零样本的行走。即使只训练了27小时的行走数据，我们的模型也能够在真实世界中实现转移，并且可以推广到在训练期间未见过的命令，如后退行走。这些发现表明通过感觉运动轨迹的生成建模来学习具有挑战性的真实世界控制任务的有前途的路径。

Feb, 2024

关键动作令牌在机器人中实现上下文内模仿学习

通过将视觉观察输入和行动轨迹输出转化为文本预训练的转换器（GPT-4 Turbo）可以接收和生成的标记序列，我们展示了现成的文本转换器可以在无需额外训练的情况下进行少样本上下文中的视觉模仿学习，模拟演示者的行为，从而将视觉观察映射到动作序列。在这种低数据情况下，我们表明这些转换器在将标记化的视觉关键点观察转化为行动轨迹方面的表现与最先进的模仿学习（扩散策略）相媲美甚至更好，而不是像通常的语言领域那样操作，Keypoint Action Tokens（KAT）利用基于文本的转换器在视觉和动作领域学习演示数据中的常规模式，为重塑自然语言模型用于具体任务指出了具有前景的新途径。

Mar, 2024