基于 Transformer 的单次运动补全
该论文提出了一种新的基于 transformer 的系统 ——mmTransformer,它使用独立提案集生成和选择提案,并使用基于区域的训练策略诱导所生成提案的多样性。实验表明,该模型在运动预测方面具有最先进的性能,大大提高了预测轨迹的多样性和准确性。
Mar, 2021
本文介绍了一种生成高质量、多样化舞蹈序列的系统,使用包括 YouTube 视频在内的大量数据集进行训练,并引入了用于评价舞蹈动作质量的新指标。此系统可用于虚拟音乐会的动画生成和专业动画制作的参考。
Aug, 2020
本文提出了一种基于去噪扩散的新框架,通过训练一个运动扩散模型来生成运动,然后通过去噪过程实现在观察到的运动条件下进行运动预测,并在现实任务中有效地实现了不同类别运动的切换,取得了良好的算法性能和结果。
Feb, 2023
本文介绍了一种基于 Transformer 结构的神经预测框架来模拟车辆之间的社交关系和预测可能的轨迹,其中采用了多模态注意机制来解决运动预测的多模态问题,并在 Argoverse 运动预测数据集上得到了最佳预测精度。
Sep, 2021
通过 Recurrent Transformers 和条件变分自编码器的结合,我们提出了一种新的迭代式方法,能够高效地生成具有任意动作序列的人类运动序列。该方法在 PROX 和 Charades 数据集上得到了验证,表明它在 FID 得分和语义一致性指标方面显著优于现有的技术方法。
Jun, 2022
TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法,利用注意力实现帧到帧的数据关联,以查询的形式自回归地跟踪现有轨迹并初始化新轨迹,能够实现目前最先进的多目标跟踪的性能。
Jan, 2021
激光雷达深度补全是深度估计的一个新的热门话题,在此任务中,颜色空间和深度空间的特征融合是关键和难点。本文将经典的 LSTM 和 Transformer 模块从自然语言处理迁移到深度补全中并进行相应的重新设计,通过使用遗忘门、更新门、输出门和跳跃门来实现颜色和深度特征的高效融合,并在多个尺度上进行循环优化,最后通过 Transformer 的多头注意力机制进一步融合深度特征。实验证明,我们的方法无需重复的网络结构和后处理步骤,只需在简单的编码器 - 解码器网络结构上添加我们的模块,就能达到最先进的性能。我们的方法在当前主流的自动驾驶 KITTI 基准数据集上排名第一,也可作为其他方法的主干网络,同样能达到最先进的性能。
Sep, 2023
本文提出了一种基于对抗性递归神经网络的新型、稳健的过渡生成技术,可以作为 3D 动画师的新工具。系统合成了高质量的运动,使用时间稀疏的关键帧作为动画约束。我们提出了两种新的加性嵌入修饰符,它们被应用在网络架构中的潜在表示内,用于解决仅在未来关键帧添加调节信息时无法将状态 - of-the-art 的运动预测模型转换为稳健的过渡生成器的问题。为了定量评估我们的方法,我们在 Human3.6M 数据集的子集和适用于转换生成的新型佐佛摸捉数据集 LaFAN1 上提供了明确定义的中间演算基准。同时,本文还发布了这个新数据集和可重现我们基准结果的伴随代码。
Feb, 2021
我们提出了一种适用于多人 3D 运动轨迹预测的新型框架,使用包含局部范围编码器和全局范围编码器的 Multi-Range Transformers 模型,可以实现不同人之间的社交互动,且在长期运动预测方面优于现有方法,甚至可以自动将人分成不同的互动组以预测 15 人的运动轨迹。
Nov, 2021
通过 Prototypical Transformer(ProtoFormer)框架,本研究从原型视角途径多种动作任务。ProtoFormer 通过深思熟虑地考虑动作动态性引入了原型学习与 Transformer 的完美结合。交叉注意力原型化通过基于典型动作模式发现原型,提供了对动作场景的透明理解。同时,潜在同步通过原型引导特征表示学习,有效缓解了动作不确定性问题。实证结果表明,该方法在光流、场景深度等流行的动作任务上取得了有竞争力的性能。此外,它还在物体跟踪和视频稳定等多种应用任务中展现了广泛适用性。
Jun, 2024