FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成

Sep, 2023

FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成

FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using Diffusion

Stefan Stan, Kazi Injamamul Haque, Zerrin Yumak

TL;DR用 FaceDiffuser 生成非确定性的深度学习模型，基于扩散技术和 HuBERT 预训练模型对音频输入进行编码，用于生成语音驱动的三维面部动画合成。

Abstract

speech-driven 3d facial animation synthesis has been a challenging task both in industry and research. Recent methods mostly focus on deterministic deep learning methods meaning that given a speech input, the output is always the same. However, in reality, the non-verbal facial cues th

speech-driven 3d facial animation synthesis non-deterministic deep learning model facediffuser diffusion technique hubert

发现论文，激发创造

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Feb, 2024

DiffusionTalker：基于语音驱动的 3D 脸部扩散器的个性化与加速

利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。

Nov, 2023

DF-3DFace：一对多语音同步的扩散式 3D 面部动画

基于扩散的语音驱动 3D 面部动画综合 DF-3DFace 方法，成功从语音中生成高度可变的面部形状和动作，同时实现比现有技术更逼真的面部动画。

Aug, 2023

SAiD: 带有扩散效果的语音驱动面部表情动画

提出了一种使用扩散模型（SAiD）和基于 Transformer 的轻量级 U-Net 实现的语音驱动的 3D 面部动画方法，其中引入了音频和视觉之间交叉模态对齐偏差以增强唇部同步性，并通过引进 BlendVOCA 数据集解决公共资源稀缺问题。实验结果表明，该方法在唇部同步性上与基线方法相当或更出色，并确保了更多样化的唇部运动，并简化了动画编辑过程。

Dec, 2023

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Sep, 2023

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023

DiffusionAvatars：高保真 3D 头像的延迟扩散

DiffusionAvatars 通过合成高保真度的三维头像人物，提供了对姿态和表情的直观控制。我们提出了一种基于扩散的神经渲染器，利用通用的二维先验生成引人注目的人脸图像。通过从目标视点渲染神经参数头模型（NPHM）对表情和头部姿态进行粗略指导，我们作为人物的代理几何体。此外，为了增强精细面部表情的建模，我们直接在 NPHM 中通过交叉注意力采用从 NPHM 获得的表情代码来调整 DiffusionAvatars。最后，为了在不同视点和表情之间综合一致地细化表面细节，我们通过 NPHM 的规范空间在头部表面上装配可学习的空间特征。我们使用人物的 RGB 视频和相应跟踪的 NPHM 网格对 DiffusionAvatars 进行训练，并在自我重演和动画场景中测试所得到的头像。我们的实验证明，DiffusionAvatars 在生成人物的新姿态和表情的时候能够产生时间上连贯而视觉上有吸引力的视频，优于现有方法。

Nov, 2023

AnimateMe: 通过扩散模型实现 4D 面部表情

利用扩散模型 enhance 了图生成模型在 3D 领域的能力，以图神经网络作为去噪扩散模型，通过在网格空间上直接进行扩散过程并生成 3D 面部表情，实现了可控且高保真的 4D 面部动画合成。

Mar, 2024

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023