MoDiTalker: 运动解缠扩散模型用于高保真说话头生成

Mar, 2024

MoDiTalker: 运动解缠扩散模型用于高保真说话头生成

MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation

Seyeon Kim, Siyoon Jin, Jihye Park, Kihong Kim, Jiyoung Kim...

TL;DR通过提出的 MoDiTalker 模型，我们成功地解决了传统 GAN 模型在生成对话头像时存在的质量有限和训练不稳定的问题，并通过引入音频到运动和运动到视频两个模块，实现了高质量的对话头像生成。

Abstract

Conventional gan-based models for talking head generation often suffer from limited quality and unstable training. Recent approaches based on diffusion models aimed to address these limitations and improve fideli

gan-based models talking head generation diffusion models moditalker audio-to-motion and motion-to-video modules

发现论文，激发创造

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023

梦言：当表达头部生成遇见扩散概率模型

利用扩散模型的潜力，提出了 DreamTalk 框架，通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件，实现了生成具有表情的说话脸部的能力。

Dec, 2023

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Dec, 2023

DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟

通过音频和地标联动，DiffTalker 模型可以生成逼真的说话人脸。DiffTalker 通过两种代理网络实现对几何精确性和纹理细节的处理，从而有效地生成清晰而几何精确的说话人脸。

Sep, 2023

SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法，通过音频和 3D 运动系数生成 3D 头部姿态和表情，利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成，并使用生成的 3D 运动系数合成最终视频，实验结果表明了该方法优于其他方法。

Nov, 2022

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Feb, 2024

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Sep, 2023