SAiD: 带有扩散效果的语音驱动面部表情动画

Dec, 2023

SAiD: 带有扩散效果的语音驱动面部表情动画

SAiD: Speech-driven Blendshape Facial Animation with Diffusion

Inkyu Park, Jaewoong Cho

TL;DR提出了一种使用扩散模型（SAiD）和基于 Transformer 的轻量级 U-Net 实现的语音驱动的 3D 面部动画方法，其中引入了音频和视觉之间交叉模态对齐偏差以增强唇部同步性，并通过引进 BlendVOCA 数据集解决公共资源稀缺问题。实验结果表明，该方法在唇部同步性上与基线方法相当或更出色，并确保了更多样化的唇部运动，并简化了动画编辑过程。

Abstract

speech-driven 3d facial animation is challenging due to the scarcity of large-scale visual-audio datasets despite extensive research. Most prior works, typically focused on learning regression models on a small dataset using the method of least squares, encounter difficulties generatin

speech-driven 3d facial animation diffusion model transform-based u-net cross-modality alignment bias lip synchronization

发现论文，激发创造

FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成

用 FaceDiffuser 生成非确定性的深度学习模型，基于扩散技术和 HuBERT 预训练模型对音频输入进行编码，用于生成语音驱动的三维面部动画合成。

Sep, 2023

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Feb, 2024

DF-3DFace：一对多语音同步的扩散式 3D 面部动画

基于扩散的语音驱动 3D 面部动画综合 DF-3DFace 方法，成功从语音中生成高度可变的面部形状和动作，同时实现比现有技术更逼真的面部动画。

Aug, 2023

利用唇语专家的视听指导增强语音驱动的三维面部动画

本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法，通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外，我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家，以整合提出的视听感知损失，并通过广泛的实验证实了我们的方法的有效性，显示了嘴唇同步和可读性性能的明显改善。

Jul, 2024

DiffusionTalker：基于语音驱动的 3D 脸部扩散器的个性化与加速

利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。

Nov, 2023

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024