基于参数隐式表征的音频驱动面部再现

CVPRJun, 2023

基于参数隐式表征的音频驱动面部再现

Parametric Implicit Face Representation for Audio-Driven Facial Reenactment

Ricong Huang, Peiwen Lai, Yipeng Qin, Guanbin Li

TL;DR本文提出了一种新的音频驱动面部再现模型，通过参数化隐式表达，同时采用了正式及隐式表达的优点，采用了多种技术来提高其质量，成功解决了可控性与高质量之间的平衡问题

Abstract

audio-driven facial reenactment is a crucial technique that has a range of applications in film-making, virtual avatars and video conferences. Existing works either employ explicit intermediate face representatio

facial reenactment audio-driven implicit representation 3d face models image synthesis

发现论文，激发创造

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

隐式模块化音视表示的姿态可控说话面孔生成

本文提出了一种简洁而有效的框架来生成姿势可控的对话脸，通过使用隐式低维姿势代码对原始面部图像进行操作，实现语音和头部姿势信息的联合非身份嵌入空间，通过调制卷积重建框架，在极端视角稳健的情况下生成准确的唇形同步会话，并具有多种先进功能，例如对话面部前视。

Apr, 2021

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

神经语音傀儡术：基于音频的面部再现

本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法，即通过深度神经网络驱动的三维面部模型，实现了基于音频和文本的视频合成，包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。

Dec, 2019

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

一次性隐式可塑人脸建模与一致纹理参数化

本文提出了一种构建隐式 3D 变形人脸模型的新方法，使用了学习得出的 SDF 和明确的 UV 贴图参数化，从而实现了单张图片的重建、面部表情动画的修改和纹理的直接绘制，相较于现有技术在照片逼真度、几何和表情精度上有了提升。

May, 2023

AniFaceDiff：面部参数条件扩散模型在高保真人脸复原中的应用

通过稳定扩散技术，提出了一种名为 AniFaceDiff 的新方法，通过增强的 2D 面部快照调节和表情适配机制实现高保真度的人脸复制，展示了在人脸复制中的卓越图像质量、身份保留和表情准确性的超过其他方法的结果

Jun, 2024

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024

利用分离音频表示动态表情

提出一种基于声音分解学习的方法来提高音频驱动的视频生成的性能，从而使生成的视频更鲁棒。

Oct, 2019

自动人脸重现

提出了一种基于图像的面部再现系统，其可用于将源视频用户的面孔替换为现有目标视频中演员的面孔，并保留原始目标性能，系统具有全自动化和不需要源表情数据库的特点，使用了图像检索和面部转移以产生令人信服的效果。

Feb, 2016