使用扩散模型进行时间一致姿势指导的人体图像动画
本文提出了一种新的姿态转换方法,通过使用组合神经网络,预测人的轮廓,服装标签和纹理,并在推理时利用训练有素的网络生成一个外观及其标签的统一表示,以对姿势变化做出响应,并使用背景完成外观的呈现,从而实现保留人物身份和外观,具有时间上的一致性和泛化能力。
Dec, 2020
该文提出了一种新的框架,通过训练一系列递归深度神经网络从2D姿势及其时间导数来生成人类形状、结构和外观的中间表示,从而解决了视频中松散的服装动态和细节的生成问题,实现了高保真的人类动作转移。
Dec, 2020
本文介绍了一种叫做SmoothNet的基于时间的姿势估计模型,通过学习每个关节的长期时间关系来改善现有姿势估计器的时间平滑度,从而提高估计准确性,并展示了在五个数据集上的实验结果。
Dec, 2021
本文提出了一种用于生成各种姿态和提示的基于文本的人体运动生成模型Make-An-Animation,训练包括使用从大规模图像文本数据集中提取得到的(文本,静态伪姿势)对的精选大规模数据集以及微调运动捕捉数据,并使用U-Net架构,达到了text-to-motion生成中最先进的性能水平。
May, 2023
这篇论文研究了人物图像动画任务,提出了一种基于扩散的框架MagicAnimate,旨在提高动画的时间一致性、保持参考图像的准确性和提升动画质量。通过引入视频扩散模型、新颖的外观编码器和简单的视频融合技术,该方法在两个基准测试中表现出卓越的性能,其中在具有挑战性的TikTok舞蹈数据集上,视频保真度比最强基线方法提高了38%以上。
Nov, 2023
通过使用稳定的视频扩散(SVD)、面部信息集成、准确对齐人体姿态和形状的控制器,VividPose通过保持人物身份,并提供一个能处理多种身体形状和动态手部运动的坚实框架,实现了最先进的性能,并展示出在我们提出的野外数据集上的出色泛化能力。
May, 2024
通过引入UniAnimate框架,我们解决了人类图像动画技术中的两个限制,实现了高效和长期的视频生成,具备了优于现有技术的合成结果。
Jun, 2024
通过引入粗糙到精细的注意掩蔽策略到视觉Transformer(ViT)中,我们提出了一个新的适配器模型Stable-Pose,以在生成图像时获得准确的姿势指导,并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。
Jun, 2024
本研究解决了现有基于扩散的人体影像动画系统在处理输入图像与目标动作视频时存在的物理构成不匹配问题,从而影响输出质量。提出的测试时普罗克鲁斯校准(TPC)方法能够在面临实际场景中的构成失调时,提升系统的鲁棒性,并保持最佳性能,显著改善模型的效果。
Oct, 2024
本研究解决了在预训练文本到图像扩散模型中对人类形状和姿势进行有条件控制的挑战。我们提出了一种领域适应技术,通过在分类器自由引导向量中隔离合成训练的条件信息,并与另一个控制网络组合,以适应生成图像输入领域。实验结果表明,该模型在形状和姿势多样性方面优于传统方法,同时保持了视觉保真度,具有重要的下游应用潜力,如人类动画。
Nov, 2024