DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

Sep, 2023

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models

Zhiyao Sun, Tian Lv, Sheng Ye, Matthieu Gaetan Lin, Jenny Sheng...

TL;DR这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Abstract

The generation of stylistic 3d facial animations driven by speech poses a significant challenge as it requires learning a many-to-many mapping between speech, style, and the corresponding natural facial motion. However, existing methods either employ a deterministic model for

3d facial animations speech-to-motion mapping style encoder diffposetalk reconstructed 3dmm parameters

发现论文，激发创造

FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成

用 FaceDiffuser 生成非确定性的深度学习模型，基于扩散技术和 HuBERT 预训练模型对音频输入进行编码，用于生成语音驱动的三维面部动画合成。

Sep, 2023

DiffusionTalker：基于语音驱动的 3D 脸部扩散器的个性化与加速

利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。

Nov, 2023

梦言：当表达头部生成遇见扩散概率模型

利用扩散模型的潜力，提出了 DreamTalk 框架，通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件，实现了生成具有表情的说话脸部的能力。

Dec, 2023

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023

为实现逼真的音频驱动的说话人脸合成而模仿任意说话风格

本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法，通过无监督学习从野外的说话视频中学习特征，可以模仿任意视频中的任意风格，并且可以生成新的样式，实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。

Oct, 2021

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Feb, 2024

ScanTalk：从未注册的扫描数据生成 3D 说话人头像

ScanTalk 是一个新的框架，利用 DiffusionNet 架构来解决面部固定拓扑结构的限制，实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较，验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。

Mar, 2024

SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法，通过音频和 3D 运动系数生成 3D 头部姿态和表情，利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成，并使用生成的 3D 运动系数合成最终视频，实验结果表明了该方法优于其他方法。

Nov, 2022

个性化的语音驱动的具有风格控制的表情生成功能的三维面部动画合成

通过建模特定身份的面部动作为潜在表示（称为样式），并在各种情感类别的语音输入中合成具有目标样式的新动画，我们提出了一种个性化语音驱动的富有表现力的 3D 面部动画综合框架。

Oct, 2023