FaceTalk:面部动作驱动的神经参数化头部模型的运动扩散
本文提出一种基于音频驱动的头像动画方法,该方法同时解决了面部动画和头部运动的问题,并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示,本方法产生的头像动画具有很好的空间和时间连续性,并且性能优于现有技术。
Jul, 2021
提出了一个名为 VividTalk 的两阶段通用框架,用于生成具有高视觉质量的语音驱动的说话人视频,并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。
Dec, 2023
本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法,通过音频和 3D 运动系数生成 3D 头部姿态和表情,利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成,并使用生成的 3D 运动系数合成最终视频,实验结果表明了该方法优于其他方法。
Nov, 2022
Talk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。
Mar, 2024
这篇论文提出了 DiffPoseTalk,一种基于扩散模型和风格编码器的生成框架,该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成,并通过利用语音和风格进行生成过程的指导,进而提高用户感知。此外,作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练,解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明,该方法优于现有的方法。将会公开发布代码和数据集。
Sep, 2023
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型,我们能够在保持表现力丰富的唇部运动输出的同时,允许随机性和动作编辑。经过定量和定性评估,我们展示了我们的方法优于现有的技术,并产生更具保真度和多样性的语音驱动动画。
Dec, 2023
通过提出的 MoDiTalker 模型,我们成功地解决了传统 GAN 模型在生成对话头像时存在的质量有限和训练不稳定的问题,并通过引入音频到运动和运动到视频两个模块,实现了高质量的对话头像生成。
Mar, 2024
利用扩散模型的潜力,提出了 DreamTalk 框架,通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件,实现了生成具有表情的说话脸部的能力。
Dec, 2023
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021