这篇论文研究了人物图像动画任务,提出了一种基于扩散的框架 MagicAnimate,旨在提高动画的时间一致性、保持参考图像的准确性和提升动画质量。通过引入视频扩散模型、新颖的外观编码器和简单的视频融合技术,该方法在两个基准测试中表现出卓越的性能,其中在具有挑战性的 TikTok 舞蹈数据集上,视频保真度比最强基线方法提高了 38% 以上。
Nov, 2023
该研究介绍了 MoDiff,它是一个基于自回归概率扩散模型的运动序列生成模型,其结合了跨模式 Transformer 编码器和基于 Transformer 的解码器,以生成控制时序依赖性的动作。该模型在运动合成方面表现优异,并通过数据丢弃方法来提高数据表示和运动合成的鲁棒性。
Apr, 2023
使用双向自回归扩散模型 (BADM) 生成与音乐相协调的舞蹈动作,通过在前后方向均保持协调一致的双向编码器和局部信息解码器,实现了生成新动作、平滑运动、提高舞蹈与节拍的同步性等功能。实验结果表明,该模型在音乐到舞蹈生成的重要基准上达到了最先进的性能。
Feb, 2024
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
通过引入 UniAnimate 框架,我们解决了人类图像动画技术中的两个限制,实现了高效和长期的视频生成,具备了优于现有技术的合成结果。
Jun, 2024
本文提出了一种基于扩散自编码器的全新的人脸视频编辑框架,该框架能够成功地从给定的视频中提取分解特征 - 首次作为人脸视频编辑模型 - 并且允许我们通过简单地操纵时间不变的特征来实现视频编辑,以解决在编辑帧之间的时间一致性等问题。该模型还具有重建和编辑能力,能够处理野外人脸视频中的极端情况,例如遮挡的人脸。
Dec, 2022
我们提出了一种将渐进扩散概念(沿着扩散时间轴操作)扩展到运动序列的方法,用于支持时变去噪,从而将两个轴相互纠缠,通过迭代去噪逐渐增加噪声位移的动作缓冲区,并产生任意长的帧流,为长期运动合成提供了新的框架。
Jul, 2023
我们提出了一种新方法,利用过去条件扩散模型和两种可选的相干采样方法:过去修复采样和组合过渡采样,实现由用户指导的长文本流控制的组合和连贯的长期三维人体动作生成。
Aug, 2023
通过扩展训练数据,我们提出了一种针对角色动画的新型框架,使用扩散模型来保持细节特征的一致性,通过空间注意力合并细节特征,引入高效的姿势指导器来控制角色运动,并采用有效的时间建模方法来实现视频帧之间的流畅过渡,相比其他图像到视频方法,在角色动画领域取得了卓越的结果。此外,我们在时尚视频和人类舞蹈合成基准上评估了我们的方法,取得了最先进的结果。
利用扩散模型为给定目标 3D 动作序列中的人物从单个图像创建动画的框架,包括学习关于人体和服装不可见部分的先验知识以及呈现适当的身体姿势和纹理的新姿态。
Jan, 2024