通过扩散模型了解基于文本驱动的关键帧协作运动合成

May, 2023

通过扩散模型了解基于文本驱动的关键帧协作运动合成

Understanding Text-driven Motion Synthesis with Keyframe Collaboration via Diffusion Models

Dong Wei, Xiaoning Sun, Huaijiang Sun, Bin Li, Shengxiang Hu...

TL;DR本文提出了一种基于文本的运动合成技术，使用 DiffKFC 建立了一个条件扩散模型，该模型结合了关键帧来协作控制运动，通过 Dilated Mask Attention 模块来实现对身体姿势的微观描述，以实现高效、协同、粗细粒度的生成运动的目的。实验表明，本模型在人机交互 3D 和 KIT 等文本到运动数据集上表现出了最先进的性能。

Abstract

The emergence of text-driven motion synthesis technique provides animators with great potential to create efficiently. However, in most cases, textual expressions only contain general and qualitative motion descriptions, while lack fine depiction and sufficient intensity, leading to th

text-driven motion synthesis diffkfc keyframes conditional diffusion model dilated mask attention

发现论文，激发创造

运动漫化：基于扩散模型的文本驱动人体动作生成

MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架，可以通过概率映射、真实的合成方式，以及多级操作等方法，有效地生成复杂和多种变化的人类运动。

Aug, 2022

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

基础到高级的分层传播模型实现详细的文本到动作合成

提出了一种基础到高级的分层扩散模型（B2A-HDM），用于协同利用低维和高维扩散模型进行高质量的详细动作合成，其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。

Dec, 2023

基于运动条件的扩散模型用于可控视频合成

介绍了一种使用条件扩散模型的视频合成方法（MCDiff），可以通过一组笔画控制视频的内容和动态，达到了良好的视觉效果。

Apr, 2023

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

May, 2024

从细粒度文本描述生成运动

建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D，并设计一种新的文本生成运动模型 FineMotionDiffuse，以更好地生成空间 / 时间上的综合动作。

Mar, 2024

FusionFrames：文本到视频生成流程的高效架构方案

本研究提出了一种基于文本到图像扩散模型的新的两阶段潜在扩散文本到视频生成架构，该架构对关键帧合成和插值帧生成进行建模，并通过比较不同的时间条件方法和视频解码方案进行实验评估，最终在视频生成质量方面取得了较好的结果。

Nov, 2023

使用扩散模型进行灵活的动作中间插值

通过使用扩散模型生成多样化的人体动作，该研究提出了一种能够根据用户指定的空间限制和文本条件生成精确且多样化的动作的条件运动扩散补间方法（CondMDI）。在评估了该方法在 HumanML3D 数据集上的性能后，研究进一步探讨了基于引导和插值的方法，以及与这些方法相比，CondMDI 在推理时间关键帧创建方面的优势。

May, 2024

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023