基于 Transformer 的单次运动补全

Mar, 2021

Single-Shot Motion Completion with Transformer

Yinglin Duan, Tianyang Shi, Zhengxia Zou, Yenan Lin, Zhehui Qian...

TL;DR本文提出了一种有效的方法来解决多种动作完成问题，在多个评估设置下达到新的艺术状态准确性。该方法由两个模块组成，标准 Transformer 编码器和可训练混合嵌入模块，可以在实时单向传播中预测多个缺失帧。

Abstract

motion completion is a challenging and long-discussed problem, which is of great significance in film and game applications. For different motion completion scenarios (in-betweening, →

motion completion in-betweening in-filling blending attention-based models

发现论文，激发创造

基于堆叠 Transformer 的多模态动作预测

该论文提出了一种新的基于 transformer 的系统 ——mmTransformer，它使用独立提案集生成和选择提案，并使用基于区域的训练策略诱导所生成提案的多样性。实验表明，该模型在运动预测方面具有最先进的性能，大大提高了预测轨迹的多样性和准确性。

Mar, 2021

使用 Transformer 学习生成多样化的舞蹈动作

本文介绍了一种生成高质量、多样化舞蹈序列的系统，使用包括 YouTube 视频在内的大量数据集进行训练，并引入了用于评价舞蹈动作质量的新指标。此系统可用于虚拟音乐会的动画生成和专业动画制作的参考。

Aug, 2020

HumanMAC: 用于人体动作预测的遮挡运动补全技术

本文提出了一种基于去噪扩散的新框架，通过训练一个运动扩散模型来生成运动，然后通过去噪过程实现在观察到的运动条件下进行运动预测，并在现实任务中有效地实现了不同类别运动的切换，取得了良好的算法性能和结果。

Feb, 2023

基于 Transformer 的多模式神经网络用于自动驾驶的运动预测

本文介绍了一种基于 Transformer 结构的神经预测框架来模拟车辆之间的社交关系和预测可能的轨迹，其中采用了多模态注意机制来解决运动预测的多模态问题，并在 Argoverse 运动预测数据集上得到了最佳预测精度。

Sep, 2021

递归变压器变分自编码器用于多动作运动合成

通过 Recurrent Transformers 和条件变分自编码器的结合，我们提出了一种新的迭代式方法，能够高效地生成具有任意动作序列的人类运动序列。该方法在 PROX 和 Charades 数据集上得到了验证，表明它在 FID 得分和语义一致性指标方面显著优于现有的技术方法。

Jun, 2022

TrackFormer：基于 Transformer 的多目标跟踪

TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法，利用注意力实现帧到帧的数据关联，以查询的形式自回归地跟踪现有轨迹并初始化新轨迹，能够实现目前最先进的多目标跟踪的性能。

Jan, 2021

多尺度循环 LSTM 与 Transformer 网络用于深度补全

激光雷达深度补全是深度估计的一个新的热门话题，在此任务中，颜色空间和深度空间的特征融合是关键和难点。本文将经典的 LSTM 和 Transformer 模块从自然语言处理迁移到深度补全中并进行相应的重新设计，通过使用遗忘门、更新门、输出门和跳跃门来实现颜色和深度特征的高效融合，并在多个尺度上进行循环优化，最后通过 Transformer 的多头注意力机制进一步融合深度特征。实验证明，我们的方法无需重复的网络结构和后处理步骤，只需在简单的编码器 - 解码器网络结构上添加我们的模块，就能达到最先进的性能。我们的方法在当前主流的自动驾驶 KITTI 基准数据集上排名第一，也可作为其他方法的主干网络，同样能达到最先进的性能。

Sep, 2023

鲁棒动作插值

本文提出了一种基于对抗性递归神经网络的新型、稳健的过渡生成技术，可以作为 3D 动画师的新工具。系统合成了高质量的运动，使用时间稀疏的关键帧作为动画约束。我们提出了两种新的加性嵌入修饰符，它们被应用在网络架构中的潜在表示内，用于解决仅在未来关键帧添加调节信息时无法将状态 - of-the-art 的运动预测模型转换为稳健的过渡生成器的问题。为了定量评估我们的方法，我们在 Human3.6M 数据集的子集和适用于转换生成的新型佐佛摸捉数据集 LaFAN1 上提供了明确定义的中间演算基准。同时，本文还发布了这个新数据集和可重现我们基准结果的伴随代码。

Feb, 2021

多范围变压器的多人三维动作预测

我们提出了一种适用于多人 3D 运动轨迹预测的新型框架，使用包含局部范围编码器和全局范围编码器的 Multi-Range Transformers 模型，可以实现不同人之间的社交互动，且在长期运动预测方面优于现有方法，甚至可以自动将人分成不同的互动组以预测 15 人的运动轨迹。

Nov, 2021

原型 Transformer 作为统一运动学习器

通过 Prototypical Transformer（ProtoFormer）框架，本研究从原型视角途径多种动作任务。ProtoFormer 通过深思熟虑地考虑动作动态性引入了原型学习与 Transformer 的完美结合。交叉注意力原型化通过基于典型动作模式发现原型，提供了对动作场景的透明理解。同时，潜在同步通过原型引导特征表示学习，有效缓解了动作不确定性问题。实证结果表明，该方法在光流、场景深度等流行的动作任务上取得了有竞争力的性能。此外，它还在物体跟踪和视频稳定等多种应用任务中展现了广泛适用性。

Jun, 2024