通过将语义和动作线索整合到扩散模型中,我们引入了一种用于视频生成的新方法,它显著提升了视频质量、动作精度和语义连贯性。
Mar, 2024
该研究提出了一种基于扩散模型的可控运动扩散模型 (COMODO) 框架,通过强化学习控制器和控制策略,实现了对虚拟角色的实时、多样化运动生成,可以适应用户的实时命令,同时还可以预测更多多样化的动作。
Jun, 2023
该研究介绍了 MoDiff,它是一个基于自回归概率扩散模型的运动序列生成模型,其结合了跨模式 Transformer 编码器和基于 Transformer 的解码器,以生成控制时序依赖性的动作。该模型在运动合成方面表现优异,并通过数据丢弃方法来提高数据表示和运动合成的鲁棒性。
Apr, 2023
通过使用具有控制网络的扩散模型,在给定提示和输入视频的条件下,我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet,以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。
Jul, 2023
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
本研究提出一种结构与内容导向的视频扩散模型。训练过程基于单眼深度估计,能够控制结构和内容的保真度,并通过新的指导方法使模型展现明确的时间一致性控制。实验结果表明该模型可以实现对视频特征的精细控制,依据少数参考图像定制化编辑,且用户更倾向于使用该模型的结果。
Feb, 2023
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
我们提出了一种基于形状条件的运动扩散模型(SMD),该模型可以直接在网格格式中生成运动序列,并结合了频谱 - 时间自编码器(STAE)以在频谱域内利用跨时依赖关系。通过广泛的实验评估,我们证明了 SMD 不仅可以生成栩栩如生的真实动作,而且在文本转换和动作转换任务中与最先进的方法相比具有竞争力的性能。
May, 2024
MotionEditor 是一种扩散模型,用于视频动作编辑,通过引入内容感知的运动适配器和两分支架构实现编辑过程中保留原始背景和主角外貌。
Nov, 2023
本文提出了一种基于文本的运动合成技术,使用 DiffKFC 建立了一个条件扩散模型,该模型结合了关键帧来协作控制运动,通过 Dilated Mask Attention 模块来实现对身体姿势的微观描述,以实现高效、协同、粗细粒度的生成运动的目的。实验表明,本模型在人机交互 3D 和 KIT 等文本到运动数据集上表现出了最先进的性能。
May, 2023