人形机器人运动的下一个令牌预测

Feb, 2024

人形机器人运动的下一个令牌预测

Humanoid Locomotion as Next Token Prediction

Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat...

TL;DR我们将真实世界中的人形控制视为下一个令牌预测问题，类似于预测语言中的下一个单词。我们的模型是一个因果变换器，通过自回归预测感觉运动轨迹来进行训练。为了考虑数据的多模态性，我们以一种模态对齐的方式进行预测，并且对于每个输入令牌，从相同的模态中预测下一个令牌。这个一般性的公式使我们能够利用缺少模态的数据，例如没有行动的视频轨迹。我们使用来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和人类的 YouTube 视频的模拟轨迹进行模型训练。我们展示了我们的模型使得一个真实尺寸的人形能够在旧金山进行零样本的行走。即使只训练了 27 小时的行走数据，我们的模型也能够在真实世界中实现转移，并且可以推广到在训练期间未见过的命令，如后退行走。这些发现表明通过感觉运动轨迹的生成建模来学习具有挑战性的真实世界控制任务的有前途的路径。

Abstract

We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories<

real-world humanoid control sensorimotor trajectories multi-modal data generative modeling challenging real-world control tasks

发现论文，激发创造

能够看到的机器人：利用人体姿势进行轨迹预测

通过使用 Transformer 架构，从人体位置、头部朝向和三维关键点等输入特征来预测人类在人类中心环境中未来的轨迹，该模型捕捉了未来人类轨迹预测中的内在不确定性，并在常见预测基准和适用于预测任务的移动机器人跟踪数据集上取得了最先进的性能。在这种具有挑战性场景中，我们发现历史数据有限的新主体是错误的主要来源，并展示了三维骨骼姿势在减少预测误差方面的互补性。

Sep, 2023

社交转动：可提示的人类轨迹预测

通过引入 Social-Transmotion，我们介绍了一种利用 transformer 处理多样化和大量视觉线索、捕捉人类行为多模态特性的通用模型，在人类轨迹预测任务中翻译自然语言处理中 prompt 的思想并扩充了轨迹数据，从而实现了增强的人类轨迹预测效果。

Dec, 2023

上下文感知轨迹预测

本研究提出了一种基于上下文感知的循环神经网络 LSTM 模型，用于人类在拥挤空间中运动和行为的预测。实验结果表明，该方法相对于之前的最新预测模型能够更好的预测人类的轨迹。

May, 2017

人体运动轨迹预测：综述

该研究调查了人类运动轨迹预测的现有方法，提出了一个基于运动建模方法和上下文信息水平的分类法，讨论了目前技术的局限性并提出了未来研究的方向。

May, 2019

使用迭代式注意力块的受条件控制的人类轨迹预测

本文通过利用神经网络的注意力机制和迭代逐步学习的方式，结合环境因素预测市区环境下行人位置的运动，成功构建了一个简单、高效的行人轨迹预测模型，并证明了该模型在不需要引入实体掩码、动态模型、社交池层或类似图形结构方面，也能够与 SoTA 模型相媲美地达到相似的性能水平。

Jun, 2022

拥挤空间中基于社交及场景感知的轨迹预测

基于 LSTM 模型及人际交互、过往观测、周围空间语义等多重因素，预测人在城市场景中的运动方向的方法在测试中证明比传统 LSTM 模型准确，成为开发自动驾驶车辆与社交性机器人必不可少的一步。

Sep, 2019

上下文感知的人体动作预测

本文利用语义图模型和图注意力层来建立上下文感知体系结构，旨在正确建模人类行为中的对象和人际互动以提高人类运动的预测准确性。通过在全身人类动作数据库上进行的彻底评估，论文显示出模式的优越性。

Apr, 2019

基于社交力模型的人体运动轨迹实时预测与低计算成本应用

通过使用 SoFGAN 模型，结合了 GAN、SFM 和 CVAE 模块，能够准确预测人的运动轨迹，降低碰撞风险，且具有低计算成本。

Nov, 2023

人形机器人的表达性全身控制

我们提出了一种能够在真实世界中让机器人产生丰富、多样和表现力强的动作的方法，通过在一个人型机器人上学习一个整体控制策略，尽可能地模仿人类的真实动作。通过在强化学习框架中利用图形社区的大规模人体动作捕捉数据来训练这种策略，但是直接使用动作捕捉数据集进行模仿学习可能无法适用于真实的人形机器人，因为在自由度和物理能力方面存在巨大差距。我们的方法（Exbody）通过鼓励上半身模仿参考动作，而放松对其两条腿的模仿约束，只要求它们能够稳定地跟随给定速度来解决这个问题。通过在模拟和实际场景中进行训练和仿真转移，我们的策略可以控制一个人形机器人以不同的风格行走，与人类握手，甚至与人类共舞。我们进行了广泛的研究和比较，展示了我们方法的有效性。

Feb, 2024

通过潜在走廊进行自适应人类轨迹预测

使用可学习的图像提示将预训练的人体轨迹预测器的输入增强，从而使预测器能够从极少量的新数据中推断出部署场景的趋势，从而解决特定场景下的人体轨迹预测问题。

Dec, 2023