关键动作令牌在机器人中实现上下文内模仿学习

Mar, 2024

关键动作令牌在机器人中实现上下文内模仿学习

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics

Norman Di Palo, Edward Johns

TL;DR通过将视觉观察输入和行动轨迹输出转化为文本预训练的转换器（GPT-4 Turbo）可以接收和生成的标记序列，我们展示了现成的文本转换器可以在无需额外训练的情况下进行少样本上下文中的视觉模仿学习，模拟演示者的行为，从而将视觉观察映射到动作序列。在这种低数据情况下，我们表明这些转换器在将标记化的视觉关键点观察转化为行动轨迹方面的表现与最先进的模仿学习（扩散策略）相媲美甚至更好，而不是像通常的语言领域那样操作，Keypoint Action Tokens（KAT）利用基于文本的转换器在视觉和动作领域学习演示数据中的常规模式，为重塑自然语言模型用于具体任务指出了具有前景的新途径。

Abstract

We show that off-the-shelf text-based transformers, with no additional training, can perform few-shot in-context visual imitation learning, mapping visual observations to action sequences that emulate the demonst

few-shot in-context visual imitation learning text-based transformers keypoint action tokens (kat)state-of-the-art imitation learning embodied tasks

发现论文，激发创造

一次即视视觉模仿的变形金刚

本文介绍了一种使用神经网络和 Transformer 注意机制的方法，通过向机器人展示上下文视频来缩小机器人学习中的领域差距，并实现了对单次操作任务的 2 倍成功率提升。

Nov, 2020

通过视觉运动链预测来扩展操作学习

提出了一种基于视觉运动链的精确和通用的机器人学习表示方法，该方法不需要手动调整，可以从机器人的模型和相机参数自动获取。通过使用单个目标进行最优点集匹配的训练，演示了 Visual Kinematics Transformer (VKT) 在多个环境中的卓越性能。

Jun, 2024

KITE: 基于关键点条件的语义操作策略

提出了一个基于 Keypoints + Instructions to Execution (KITE) 的两步框架用于实现语义操作，首先通过 2D 图像关键点将输入指令与视觉场景关联，然后通过学习到的关键点条件技能执行指令，其中 keypoints 和参数化技能的组合使得对场景和物体变化的细粒度操控具有泛化能力。

Jun, 2023

使用视觉动作转换器模拟任务与运动规划

该论文提出了一种新的模仿学习系统 OPTIMUS，通过模仿 TAMP 代理来训练大规模视觉运动装置策略，从而介绍了一种专门为模仿学习策划的 TAMP 数据生成流程，并演示了 OPTIMUS 可以解决各种挑战性的基于视觉的操作任务。

May, 2023

基于关键点集成的软动作者 - 评论高斯混合模型的机器人技能推广

我们通过将模仿和强化学习范式相结合，开发了一种学习和适应技能的混合模型，通过学习动态系统的关键点，利用机器人在技能学习过程中的视觉观察，预测场景内的参考点，从而实现机器人在新环境中的零样本泛化能力和在目标环境中更快地优化技能的目标，同时能有效处理场景变化。

Oct, 2023

基于风格转移的语音和视觉场景理解，用于机器人从视频中获取操作序列

本文介绍一种从指令视频中生成机器人动作序列的方法，用于实现人机协作，并展示了该方法在各种烹饪动作中的成功率达到 32%。

Jun, 2023

策略学习的全点轨迹建模

通过使用预训练的轨迹模型，提出了一种利用视频演示来预测视频帧内任意点的未来轨迹，从而实现对机器人进行精确控制指导，使其能够在最少的动作标记数据下学习到鲁棒的视觉运动策略。

Dec, 2023

RoboTAP：用于少样本视觉模仿的任意点追踪

我们探讨了密集跟踪作为一种表征工具，使机器人能够更快、更通用地从示教中学习，并展示了通过密集跟踪生成的稳健机器人策略能够解决复杂的物体排列任务，如形状匹配、堆叠，甚至全路径跟踪任务，如涂胶并粘合物体，这些示教仅需数分钟即可收集。

Aug, 2023

文本输入模态对动作预测效果的研究

我们提出了一种多模态预测变压器（MAT）架构，它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验，我们评估了预训练阶段的有效性，并在所有数据集上展示了我们模型的优势。此外，我们还评估了通过文本获取的对象和动作信息的影响，并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现，结果显示文本描述确实有助于更有效的动作预测。

Jan, 2024

面向 EPIC-KITCHENS-100 动作识别的视频视觉 Transformer 训练

本文介绍了一种训练更强大的视频视觉变换器的经验结果，使用了诸如增强、分辨率和初始化等技术，并在 EPIC-KITCHENS-100 数据集上进行了探索，单个 ViViT 模型在验证集上取得了 47.4% 的性能，超过原始文献报告的 3.4%。

Jun, 2021