Media2Face: 借助多模态引导生成共话脸部动画

Jan, 2024

Media2Face: 借助多模态引导生成共话脸部动画

Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang...

TL;DR从语音中合成 3D 面部动画引起了极大的关注。我们通过三位一体的方法来应对这一挑战，首先介绍了广义神经参数面部特征 (GNPFA)，然后利用 GNPFA 从大量的视频中提取高质量的表情和准确的头部姿势，最后，我们提出了 Media2Face，这是一个在 GNPFA 潜在空间中的扩散模型，用于生成与音频、文本和图像相关的共语面部动画。大量实验表明，我们的模型不仅在面部动画合成方面具有高保真性，还扩大了 3D 面部动画的表现力和风格适应性。

Abstract

The synthesis of 3d facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address

3d facial animations speech synthesis gnpfa m2f-d dataset media2face

发现论文，激发创造

PMMTalk：基于互补伪多模特征的语音驱动 3D 面部动画

PMMTalk 是一种使用伪多模态特征的新框架，通过跨模态对齐模块和 PMMTalk 解码器提高面部动画的准确性，同时引入面部混合形状系数，从而产生更准确的结果。

Dec, 2023

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

GSmoothFace: 通过细粒度的 3D 人脸引导实现广义流畅对话面部生成

提出了一种新颖的两阶段广义说话人脸生成模型 GSmoothFace，通过精细的 3D 面部模型引导，能够产生平滑的唇部动态并保留说话人的身份，实验证明了我们方法在真实性、唇部同步和视觉质量方面的优越性。

Dec, 2023

Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情

使用 RGB 视频数据，我们提出了一种基于多模态学习的方法，可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节，并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明，我们的方法具有低重建误差，能够为数字角色产生多样化的面部表情和身体动作。

Jun, 2024

高保真的通用情感交流人脸生成 —— 基于多模态情感空间学习

本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器，以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器，通过充分利用深度神经网络，实现了情感控制的灵活性和可扩展性，进而提高了合成图像的质量和细节。

May, 2023

几何引导的对抗性面部表情合成

本文提出一种几何引导生成对抗网络 (G2-GAN)，通过面部几何条件（标识点）来引导特定表情的面部纹理合成，实现逼真的与身份保护面部表情合成，并取得了良好的实验效果。

Dec, 2017

M$^3$Face：一种统一的多模态多语言人脸生成与编辑框架

M3Face 是一个统一的多模态多语言框架，用于可控的人脸生成和编辑，它使用户能够仅通过文本输入来自动生成控制模态，如语义分割或面部标志，并随后生成人脸图像。

Feb, 2024

稀疏到密集的动态三维面部表情生成

本文提出了一种从中性 3D 人脸和表情标签生成动态 3D 面部表情的解决方案，解决了表情动态建模和面部变形两个子问题，并展示了该方案在动态表情生成和网格重建方面的显著改进。

May, 2021

GaFET：学习自野外图像的几何感知面部表情翻译

基于参数化的三维面部表情表示，我们提出了一种新颖的面部表情转化框架（GaFET），该框架可以稳定地分解表情，并通过多级特征对齐变换器和基于 StyleGAN 的去表情模型解决了非几何面部细节特征和空间特征对齐的问题，进而实现了与当前最先进方法相比更高质量和更准确的面部表情转换结果，并且适用于各种姿势和复杂纹理。此外，我们的方法省略了视频或注释训练数据，使得使用和推广更加简单。

Aug, 2023

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023