DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

Dec, 2023

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song...

TL;DRDREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Abstract

The generation of emotional talking faces from a single portrait image remains a significant challenge. The simultaneous achievement of expressive emotional talking and accurate lip-sync is particularly difficult

emotional talking faces expressive emotional talking accurate lip-sync diffusion-based audio-driven framework diverse expressions

发现论文，激发创造

梦言：当表达头部生成遇见扩散概率模型

利用扩散模型的潜力，提出了 DreamTalk 框架，通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件，实现了生成具有表情的说话脸部的能力。

Dec, 2023

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

音频驱动的说话人生成的高效情绪适应

通过参数高效的调整，情感适应音频驱动的说话头（EAT）方法可以有效地将无情感的说话头模型转换为可控情感的模型，从不同的角度引入三种轻量级适应方式，实现精确而逼真的情感控制，并在广泛应用的基准测试中取得了最先进的性能表现。

Sep, 2023

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

利用单张图像与情感条件生成语音驱动的说话人脸

本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达，设计了一个端到端的语音驱动面部生成系统，可以在输入语音、单张面部图像和情感标签时呈现表情，在图像质量、音视频同步和视觉情感表达等方面表现出色，主观和客观的评估都证明了该系统的优越性。此外，还利用生成的视频进行了人类情感识别实验，结果表明在音频和视觉模态不匹配的情况下，人们对视觉模态的响应更为显著。

Aug, 2020

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023

DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟

通过音频和地标联动，DiffTalker 模型可以生成逼真的说话人脸。DiffTalker 通过两种代理网络实现对几何精确性和纹理细节的处理，从而有效地生成清晰而几何精确的说话人脸。

Sep, 2023

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023