DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

Feb, 2024

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

Zhiyuan Ma, Xiangyu Zhu, Guojun Qi, Chen Qian, Zhaoxiang Zhang...

TL;DR使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Abstract

speech-driven 3d facial animation is important for many multimedia applications. Recent work has shown promise in using either diffusion models or →

speech-driven 3d facial animation diffusion models transformer architectures paired audio-4d data diffspeaker

发现论文，激发创造

FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成

用 FaceDiffuser 生成非确定性的深度学习模型，基于扩散技术和 HuBERT 预训练模型对音频输入进行编码，用于生成语音驱动的三维面部动画合成。

Sep, 2023

DiffusionTalker：基于语音驱动的 3D 脸部扩散器的个性化与加速

利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。

Nov, 2023

DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟

通过音频和地标联动，DiffTalker 模型可以生成逼真的说话人脸。DiffTalker 通过两种代理网络实现对几何精确性和纹理细节的处理，从而有效地生成清晰而几何精确的说话人脸。

Sep, 2023

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

SAiD: 带有扩散效果的语音驱动面部表情动画

提出了一种使用扩散模型（SAiD）和基于 Transformer 的轻量级 U-Net 实现的语音驱动的 3D 面部动画方法，其中引入了音频和视觉之间交叉模态对齐偏差以增强唇部同步性，并通过引进 BlendVOCA 数据集解决公共资源稀缺问题。实验结果表明，该方法在唇部同步性上与基线方法相当或更出色，并确保了更多样化的唇部运动，并简化了动画编辑过程。

Dec, 2023

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Sep, 2023

DF-3DFace：一对多语音同步的扩散式 3D 面部动画

基于扩散的语音驱动 3D 面部动画综合 DF-3DFace 方法，成功从语音中生成高度可变的面部形状和动作，同时实现比现有技术更逼真的面部动画。

Aug, 2023

梦言：当表达头部生成遇见扩散概率模型

利用扩散模型的潜力，提出了 DreamTalk 框架，通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件，实现了生成具有表情的说话脸部的能力。

Dec, 2023

FaceFormer：基于 Transformer 的语音驱动 3D 面部动画

提出了一种基于 Transformer 的自回归模型，称为 FaceFormer，用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码，并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示，使得该模型能够成功解决数据稀缺问题。同时，设计了两种有偏的注意机制，并进行为这个特定任务进行优化。大量实验证明，该方法优于现有的最先进技术。

Dec, 2021

DiT-Head：使用扩散变压器进行高分辨率说话人合成

我们提出了一种基于扩散变压器的新型对话头合成流程，利用音频作为条件来驱动扩散模型的去噪过程。我们的方法具有可扩展性，可以推广到多个身份，同时产生高质量的结果。通过与现有的对话头合成方法进行比较，我们对我们提出的方法进行训练和评估，并展示了我们的模型在视觉质量和嘴唇同步准确性方面可以与这些方法竞争。我们的结果突显了我们提出的方法在包括虚拟助手、娱乐和教育在内的广泛应用中的潜力。请参阅我们的补充材料以获取结果和用户研究的视频演示。

Dec, 2023