DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟

MMSep, 2023

DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟

DiffTalker: Co-driven audio-image diffusion for talking faces via intermediate landmarks

Zipeng Qi, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang

TL;DR通过音频和地标联动，DiffTalker 模型可以生成逼真的说话人脸。DiffTalker 通过两种代理网络实现对几何精确性和纹理细节的处理，从而有效地生成清晰而几何精确的说话人脸。

Abstract

Generating realistic talking faces is a complex and widely discussed task with numerous applications. In this paper, we present difftalker, a novel model designed to generate lifelike talking faces through audio and landmark co-driving. →

generating talking faces difftalker audio and landmark co-driving diffusion models geometrically accurate talking faces

发现论文，激发创造

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Feb, 2024

梦言：当表达头部生成遇见扩散概率模型

利用扩散模型的潜力，提出了 DreamTalk 框架，通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件，实现了生成具有表情的说话脸部的能力。

Dec, 2023

DiffusionTalker：基于语音驱动的 3D 脸部扩散器的个性化与加速

利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。

Nov, 2023

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Dec, 2023

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023

MoDiTalker: 运动解缠扩散模型用于高保真说话头生成

通过提出的 MoDiTalker 模型，我们成功地解决了传统 GAN 模型在生成对话头像时存在的质量有限和训练不稳定的问题，并通过引入音频到运动和运动到视频两个模块，实现了高质量的对话头像生成。

Mar, 2024

基于音频驱动的面部动态表情多样而逼真的生成技术

DIRFA 是一种新的方法，可以通过基于 Transformer 的概率映射网络生成出同一音频驱动下具有多样化但真实面部动画的语音合成人脸，并能通过源图像使用通用生成网络合成出逼真的说话人脸。

Apr, 2023

DiT-Head：使用扩散变压器进行高分辨率说话人合成

我们提出了一种基于扩散变压器的新型对话头合成流程，利用音频作为条件来驱动扩散模型的去噪过程。我们的方法具有可扩展性，可以推广到多个身份，同时产生高质量的结果。通过与现有的对话头合成方法进行比较，我们对我们提出的方法进行训练和评估，并展示了我们的模型在视觉质量和嘴唇同步准确性方面可以与这些方法竞争。我们的结果突显了我们提出的方法在包括虚拟助手、娱乐和教育在内的广泛应用中的潜力。请参阅我们的补充材料以获取结果和用户研究的视频演示。

Dec, 2023

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024

ScanTalk：从未注册的扫描数据生成 3D 说话人头像

ScanTalk 是一个新的框架，利用 DiffusionNet 架构来解决面部固定拓扑结构的限制，实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较，验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。

Mar, 2024