基于概率的语音驱动三维面部动作合成：新的基准、方法和应用

Nov, 2023

基于概率的语音驱动三维面部动作合成：新的基准、方法和应用

Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks, Methods, and Applications

Karren D. Yang, Anurag Ranjan, Jen-Hao Rick Chang, Raviteja Vemulapalli, Oncel Tuzel

TL;DR从语音信号中为 3D 面部几何动画创建概率模型的研究，通过大规模数据集和合适的评估指标，展示了多样性和准确性，可生成适应未知说话者风格的 3D 面部运动，并改进下游的视听模型表现。

Abstract

We consider the task of animating 3d facial geometry from speech signal. Existing works are primarily deterministic, focusing on learning a one-to-one mapping from →

3d facial geometry speech signal probabilistic models large-scale datasets speech-driven 3d facial motion

发现论文，激发创造

CodeTalker: 利用离散运动先验驱动的语音驱动 3D 面部动画

本文提出将基于语音的面部动画转化为在学习到的码本的有限代理空间中的代码查询任务，有效地减少了跨模态映射的不确定性，从而提高了生成的运动的生动性，并且通过使用一个自动回归模型，演示了我们方法在视觉和感知质量上均优于当前最先进的方法。

Jan, 2023

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

从 “野外” 语音合成三维面部动作

本文采用新的时域扭曲技术 Deep Canonical Attentional Warping (DCAW) 实现了从任意语音录音中综合 3D 面部运动，并经过了充分的评估，可以成功地在处理不同的演讲者和不受控制的语音信号时，合成连续的 3D 面部运动。

Apr, 2019

DF-3DFace：一对多语音同步的扩散式 3D 面部动画

基于扩散的语音驱动 3D 面部动画综合 DF-3DFace 方法，成功从语音中生成高度可变的面部形状和动作，同时实现比现有技术更逼真的面部动画。

Aug, 2023

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Sep, 2023

FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成

用 FaceDiffuser 生成非确定性的深度学习模型，基于扩散技术和 HuBERT 预训练模型对音频输入进行编码，用于生成语音驱动的三维面部动画合成。

Sep, 2023

PMMTalk：基于互补伪多模特征的语音驱动 3D 面部动画

PMMTalk 是一种使用伪多模态特征的新框架，通过跨模态对齐模块和 PMMTalk 解码器提高面部动画的准确性，同时引入面部混合形状系数，从而产生更准确的结果。

Dec, 2023

学习聆听：建模非确定性二元面部动作

该论文提出了一个交互式对话的建模框架，通过结合说话人的动作、对话音频和可能的相应听众动作输出来捕捉非口头双人互动的多模态和非确定性特征，还使用了运动 - 音频交叉注意力变换将说话人的运动和语音音频结合起来，并通过运动编码 VQ-VAE 学习了对真实听众运动的离散潜在表示。

Apr, 2022

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024