基于关键帧的运动插值连续中间标记学习与隐含运动流形

CVPRMar, 2023

基于关键帧的运动插值连续中间标记学习与隐含运动流形

Continuous Intermediate Token Learning with Implicit Motion Manifold for Keyframe Based Motion Interpolation

Clinton Ansun Mo, Kun Hu, Chengjiang Long, Zhiyong Wang

TL;DR本文提出了一种使用基于关键帧约束的潜在运动流形组成的新框架，以及从中生成连续自然的中间令牌表示的方法，进而外推和合成运动数据的运动综合阶段。我们的实验证明了该方法在插值准确性和视觉相似性方面具有优越性。

Abstract

Deriving sophisticated 3d motions from sparse keyframes is a particularly challenging problem, due to continuity and exceptionally skeletal precision. The action features are often derivable accurately from the f

3d motions keyframes transformers latent motion manifolds motion synthesis

发现论文，激发创造

在多样化的 3D 场景中生成连续的人体动作

我们介绍了一种利用稀疏关键点在三维场景中合成动画指导人类运动的方法，该方法通过将连续运动合成问题分解为沿路径行走和在关键点指定的动作之间的转换，生成长序列的动作，并在目标为原点的规范坐标系中生成运动以实现持续运动合成。

Apr, 2023

鲁棒动作插值

本文提出了一种基于对抗性递归神经网络的新型、稳健的过渡生成技术，可以作为 3D 动画师的新工具。系统合成了高质量的运动，使用时间稀疏的关键帧作为动画约束。我们提出了两种新的加性嵌入修饰符，它们被应用在网络架构中的潜在表示内，用于解决仅在未来关键帧添加调节信息时无法将状态 - of-the-art 的运动预测模型转换为稳健的过渡生成器的问题。为了定量评估我们的方法，我们在 Human3.6M 数据集的子集和适用于转换生成的新型佐佛摸捉数据集 LaFAN1 上提供了明确定义的中间演算基准。同时，本文还发布了这个新数据集和可重现我们基准结果的伴随代码。

Feb, 2021

相位流形中的运动中间插值

通过使用周期自编码器学习到的相位变量，在混合专家神经网络模型中引入了一种新颖的数据驱动的动作插值系统，以达到人物的目标姿势。我们的方法在空间和时间上以不同的专家权重聚类动作，生成一系列自回归方式在当前状态和目标状态之间的姿势序列。此外，为了满足动画师手动修改的姿势或某些末端执行器作为要达到的约束，我们实施了学习的双向控制方案来满足这些约束。结果表明，使用相位进行动作插值任务可以使插值动作更加清晰，并进一步稳定学习过程。此外，在动作插值任务中使用相位还可以合成更具挑战性的运动，超越了行走等基本动作。此外，可以在给定目标关键帧之间进行风格控制。我们的提出的框架在动作质量和泛化性方面可与流行的最先进方法相竞争，特别是在存在较长的过渡持续时间的情况下。我们的框架有助于快速原型工作流程，用于创建游戏和电影行业中的动画人物序列，这是非常有趣的。

Aug, 2023

使用扩散模型进行灵活的动作中间插值

通过使用扩散模型生成多样化的人体动作，该研究提出了一种能够根据用户指定的空间限制和文本条件生成精确且多样化的动作的条件运动扩散补间方法（CondMDI）。在评估了该方法在 HumanML3D 数据集上的性能后，研究进一步探讨了基于引导和插值的方法，以及与这些方法相比，CondMDI 在推理时间关键帧创建方面的优势。

May, 2024

稀疏流形变换

提出了将稀疏编码、流形学习和慢特征分析方法相结合的信号表示框架，称为 “稀疏流形变换”。这个无监督和生成性的框架，能够显式地、同时地模拟自然场景中发现的稀疏离散性和低维流形结构，具有近似可逆性，并能够用于层级嵌套的建模。通过在合成数据和自然视频上的实验证明了所学到表示的性质。

Jun, 2018

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

May, 2024

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

通过时间一致的点云采样和重构实现任何人体骨架的动作关键帧插值

角色动画领域中，我们提出了基于点云的运动表示学习 (PC-MRL) 方法，通过无监督学习实现了对不同骨架的运动插值，消除了传统数据集限制的影响，在没有原始数据集监督的情况下，PC-MRL 在所需骨架的运动插值方面表现出了良好的效果。

May, 2024

MotionLM: 多智能体运动预测作为语言建模

可靠地预测道路行为是自动驾驶车辆安全规划的关键组成部分。本研究将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测视为一个语言建模任务。我们的模型 MotionLM 具有多个优势：首先，它不需要锚点或明确的潜在变量优化来学习多模态分布；其次，我们利用标准的语言建模目标，通过最大化序列令牌的平均对数概率来实现；此外，该模型的顺序分解使得它能够进行时间因果条件推断。在 Waymo 开放动态数据集上，所提出的方法在多智能体运动预测方面取得了新的最先进性能，排名第一。

Sep, 2023

自然语言中的迭代运动编辑

使用自然语言来迭代地指定对现有字符动画进行本地编辑的方法。通过使用一组有确定语义的运动编辑操作符来表示运动编辑空间，然后使用扩散基的关键帧插值生成最终动画。

Dec, 2023