Mar, 2024

关键动作令牌在机器人中实现上下文内模仿学习

TL;DR通过将视觉观察输入和行动轨迹输出转化为文本预训练的转换器(GPT-4 Turbo)可以接收和生成的标记序列,我们展示了现成的文本转换器可以在无需额外训练的情况下进行少样本上下文中的视觉模仿学习,模拟演示者的行为,从而将视觉观察映射到动作序列。在这种低数据情况下,我们表明这些转换器在将标记化的视觉关键点观察转化为行动轨迹方面的表现与最先进的模仿学习(扩散策略)相媲美甚至更好,而不是像通常的语言领域那样操作,Keypoint Action Tokens(KAT)利用基于文本的转换器在视觉和动作领域学习演示数据中的常规模式,为重塑自然语言模型用于具体任务指出了具有前景的新途径。