SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

CVPRNov, 2022

SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Wenxuan Zhang, Xiaodong Cun, Xuan Wang, Yong Zhang, Xi Shen...

TL;DR本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法，通过音频和 3D 运动系数生成 3D 头部姿态和表情，利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成，并使用生成的 3D 运动系数合成最终视频，实验结果表明了该方法优于其他方法。

Abstract

Generating talking head videos through a face image and a piece of speech audio still contains many challenges. ie, unnatural head movement, distorted expression, and identity modification. We argue that these issues are mainly because of learning from the coupled 2D motion fields. On

talking head videos 3d motion coefficients audio and motion connection expnet posevae

发现论文，激发创造

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

3D 感知的讲话头部视频动作转移

本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D，通过生成可视化可解释的 3D 标准头部，从 2D 主体帧中充分利用主体外貌信息，以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块，能够从 2D 主体视频帧预测头部姿势和深度图。此外，我们还采用基于注意力的融合网络，将主体帧的背景和其他细节与 3D 主体头部相结合，生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验，结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法，有证据显示它能够轻松适应受控姿态的新视图合成任务。

Nov, 2023

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Sep, 2023

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

CodeTalker: 利用离散运动先验驱动的语音驱动 3D 面部动画

本文提出将基于语音的面部动画转化为在学习到的码本的有限代理空间中的代码查询任务，有效地减少了跨模态映射的不确定性，从而提高了生成的运动的生动性，并且通过使用一个自动回归模型，演示了我们方法在视觉和感知质量上均优于当前最先进的方法。

Jan, 2023

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024