MotionLCM:基于潜变一致性模型的实时可控动作生成
运动扩散模型通过运动潜变量的一致性训练提高运动生成性能,使用概率流常微分方程表达扩散过程,引入量化约束优化运动潜变量表示,提出条件生成方法并节省大量时间成本,实验结果表明该模型具有最先进的性能和较低的时间成本。
May, 2024
论文介绍了一种名为 VideoLCM 的框架,它利用了一致性模型的概念,通过最小步骤高效地合成视频,同时保持高质量。VideoLCM 基于现有的潜在视频扩散模型,并结合了一致性蒸馏技术来训练潜在一致性模型。实验结果表明,VideoLCM 在计算效率、保真度和时间一致性方面的有效性。尤其值得注意的是,VideoLCM 仅需四个采样步骤即可实现高保真度和流畅的视频合成,展示了实时合成的潜力。希望 VideoLCM 能成为后续研究的简单而有效的基准。源代码和模型将公开提供。
Dec, 2023
通过提出的 AnimaLCM 方法,我们可以在最小的步骤内实现高保真度的视频生成,通过解耦图像生成先验和动作生成先验的一致性学习策略,提高了训练效率和生成的视觉质量。同时,我们还提出了一种有效的策略,使得现有的适配器可在稳定的扩散社区内实现各种功能,同时不影响采样速度,验证实验结果表明了我们提出方法的有效性。
Feb, 2024
通过解决现有设计中的三个关键缺陷,本文提出了阶段一致性模型(PCM),该模型在多步细化的任务上显著优于现有方法,在一步生成任务上与先前的最新方法相当甚至更优。此外,PCM 的方法学还可应用于视频生成,使其成为最先进的少步文本到视频生成器之一。
May, 2024
利用潜在一致性模型(LCMs)解决迭代抽样过程在高分辨率图像合成中的计算负担和生成速度慢的问题,LCMs 通过直接预测导引反向扩散过程的 ODE 解决方案在潜空间中,实现了快速、高保真度的采样。
Oct, 2023
通过增加 Trajectory Consistency Distillation(TCD)的一组函数和策略性的随机采样的设计,可以显著提高图像生成质量,同时减少由多步一致性采样中积累的误差所致的细节不足,并且在较高的 NFEs 下相较于教师模型更加详细。
Feb, 2024
提出了一种基于 Motion Generation 的视频生成方法,通过 Latent Motion Generation 和 Video Reconstruction 实现视频生成的可控性,采用了 LaMD 框架,包括 Motion-decomposed Video Autoencoder 和 Diffusion-based Motion Generator 两部分,实现了高质量、宽泛的运动生成,并在多个基准数据集上创造了新的最先进的性能。
Apr, 2023
该论文提出了一种名为 MoLA 的快速高质量运动生成框架,能够处理多项编辑任务,并利用变分自动编码器和潜在扩散模型实现高质量的快速生成。此外,还应用了一种无需训练的引导生成框架来实现各种编辑任务,从而证明了对抗性学习在文本到运动生成中的有效性,并展示了编辑框架在运动领域中的适用性。
Jun, 2024
该研究提出了一种基于扩散模型的可控运动扩散模型 (COMODO) 框架,通过强化学习控制器和控制策略,实现了对虚拟角色的实时、多样化运动生成,可以适应用户的实时命令,同时还可以预测更多多样化的动作。
Jun, 2023
CoMo 是一种可控运动生成模型,通过利用大型语言模型的先验知识,在准确生成和编辑动作方面表现出色。它将动作分解为离散且语义上有意义的姿势代码,每个代码都包含身体部位的语义信息,如 “左膝稍微弯曲”。通过调整姿势代码,CoMo 可以实现直接干预动作编辑。实验证明,与最先进的模型相比,CoMo 在运动生成方面具有竞争力,在人体研究中,CoMo 在动作编辑能力方面远远超过以前的工作。
Mar, 2024