每个人都跳舞
人体运动复制是人工智能和计算机视觉中一个有趣且具有挑战性的任务,本研究通过在生成过程中引入感知损失、理论驱动的 Gromov-Wasserstein 损失和时域一致性,以及使用记忆模块,优化关键身体部位,从而实现模仿源视频中的运动并生成逼真的目标视频。实验结果表明,该方法在 PSNR 和 FID 方面的表现明显优于现有的方法,分别提升了 7.2% 和 12.4%。
Jun, 2024
本文采用人工智能技术生成目标人物的视频,并提出了三个方面的挑战:将每个视频帧解构成前景和背景,提出一种理论驱动的 Gromov-Wasserstein 损失,对面部特征进行几何引导并使用本地 GANs 细化脸部、脚部和手部。实验结果表明,我们的方法能够生成具有逼真的目标人物的视频,忠实地复制源人物的复杂动作。
May, 2022
该文提出了一种新的框架,通过训练一系列递归深度神经网络从 2D 姿势及其时间导数来生成人类形状、结构和外观的中间表示,从而解决了视频中松散的服装动态和细节的生成问题,实现了高保真的人类动作转移。
Dec, 2020
通过姿势数据和神经运动合成方法,我们利用现有的运动捕捉数据集将合理的动作转移到只有姿势数据的角色上,实验证明该方法可以同时有效地结合源角色的运动特征和目标角色的姿势特征,并通过小型或嘈杂的姿势数据集生成逼真的动作,被参与者评为更加享受观看、外观更逼真且表现更加平滑。
Oct, 2023
我们提出了一种基于扩散的模型 MagicDance,用于处理具有挑战性的人类舞蹈视频中的 2D 人体动作和面部表情转换。通过预训练外观控制块和微调外观 - 姿势 - 关节点控制块的两阶段训练策略,我们旨在在保持身份不变的同时生成任何目标身份驱动的人类舞蹈视频。
Nov, 2023
通过引入 “Let's Dance” 数据集,作者介绍了如何在视频领域应用深度神经网络方法,并探讨了这些方法在学习如何处理动态数据时的价值和性能,特别是在区分需要使用运动信息分类的动态运动大类方面的困难。
Jan, 2018
本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D,通过生成可视化可解释的 3D 标准头部,从 2D 主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块,能够从 2D 主体视频帧预测头部姿势和深度图。此外,我们还采用基于注意力的融合网络,将主体帧的背景和其他细节与 3D 主体头部相结合,生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验,结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法,有证据显示它能够轻松适应受控姿态的新视图合成任务。
Nov, 2023
文章提出了一个以姿势感知损失的学习方法来自动生成符合音乐的舞蹈视频。文章使用两个区分器来捕捉序列的不同方面,并提出新的姿态感知损失来产生自然的舞蹈,同时还提供了一种新的跨模态评估来评估舞蹈质量。最终,通过一项用户研究,证明了所提出的方法生成的舞蹈视频具有惊人的逼真效果。
Dec, 2019
本文提出了一种基于注意力机制的网络来进行任意物体之间的动作传递,从源图像和驱动视频中提取外观信息并实现不同主体间的动作传递,通过交叉主体训练模型能更多角度、更真实的传递动作,实验表明该方法在各个领域内表现更好。
Jul, 2020