GeneFace++: 实时稳定的通用音频驱动 3D 口型生成

May, 2023

GeneFace++: 实时稳定的通用音频驱动 3D 口型生成

GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation

Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang...

TL;DRGeneFace++ 是目前第一个实现了稳定和实时的通用音频 - 唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的 NeRF 模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

Abstract

Generating talking person portraits with arbitrary speech audio is a crucial problem in the field of digital human and metaverse. A modern talking face generation method is expected to achieve the goals of generalized audio-lip synchronization, good video quality, and high

talking person portraits nerf audio-lip synchronization system efficiency real-time inference

发现论文，激发创造

GeneFace：通用高保真音频驱动的 3D 人脸合成

研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace，并且在大规模口型阅读语料库的基础上，学习了一个变分运动生成器，并引入了一个域自适应后置网络来校准结果，实现了通用外域音频的自然结果创造。

Jan, 2023

NeRFFaceSpeech：一次性音频驱动的 3D 说话头合成基于生成先验

使用 NeRF 和生成模型的先验知识，提出了一种名为 NeRFFaceSpeech 的新方法，通过空间同步和补全缺失信息，实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。

May, 2024

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

高斯说话人：通过三维高斯喷洒合成特定说话人的形象

使用 3D 高斯散点图作为基础，GaussianTalker 是一种基于音频驱动的说话人头部合成方法，具有准确的唇部同步和优秀的视觉质量，超过现有最先进的方法，并具有实时渲染性能。

Apr, 2024

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

基于人脸属性神经渲染的个性化语音头像生成

本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像，并利用大量数据观察到输入音频与唇部运动高度相关，提出一种条件分解方法，其中唇部运动直接从音频输入中预测来实现同步生成，同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明，该方法实现了远优于现有方法的成果。

Jan, 2022

语义感知隐式神经音频驱动视频肖像生成

该研究提出了一种语音驱动的 Semantic-aware Speaking Portrait NeRF (SSP-NeRF) 模型，该模型可以通过两个语义感知模块处理细节本地面部语义和全局头颈关系，从而通过一个统一的神经辐射场呈现面部表情，且通过进行大规模非刚性的 Torso 变形来稳定人物的大比例非刚性运动。

Jan, 2022

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023