基于人脸属性神经渲染的个性化语音头像生成

Jan, 2022

基于人脸属性神经渲染的个性化语音头像生成

DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering

Shunyu Yao, RuiZhe Zhong, Yichao Yan, Guangtao Zhai, Xiaokang Yang

TL;DR本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像，并利用大量数据观察到输入音频与唇部运动高度相关，提出一种条件分解方法，其中唇部运动直接从音频输入中预测来实现同步生成，同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明，该方法实现了远优于现有方法的成果。

Abstract

While recent advances in deep neural networks have made it possible to render high-quality images, generating photo-realistic and personalized talking head remains challenging. With given audio, the key to tackling this task is synchronizing lip movement and simultaneously generating p

deep neural networks talking head generation lip synchronization personalized attributes neural radiance field

发现论文，激发创造

NeRFFaceSpeech：一次性音频驱动的 3D 说话头合成基于生成先验

使用 NeRF 和生成模型的先验知识，提出了一种名为 NeRFFaceSpeech 的新方法，通过空间同步和补全缺失信息，实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。

May, 2024

NeRF-AD: 基于注意力解耦的神经辐射场对话人脸合成

通过引入基于注意力的解缠模块（NeRF-AD），本文提出了一种基于 Neural Radiance Field 的语音驱动说话人脸合成方法，可以生成逼真且具有嘴唇同步效果的说话人脸视频。

Jan, 2024

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021

AD-NeRF：音频驱动的神经光辐射场用于说话人头部合成

本文提出了一种基于神经场景表示网络的方法来生成高保真度的会说话头部视频，采用条件隐式函数和动态神经辐射场来直接从输入音频信号生成视频，并支持自由调整音频信号，视角和背景图像。

Mar, 2021

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

GeneFace：通用高保真音频驱动的 3D 人脸合成

研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace，并且在大规模口型阅读语料库的基础上，学习了一个变分运动生成器，并引入了一个域自适应后置网络来校准结果，实现了通用外域音频的自然结果创造。

Jan, 2023

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024

基于音频驱动的面部动态表情多样而逼真的生成技术

DIRFA 是一种新的方法，可以通过基于 Transformer 的概率映射网络生成出同一音频驱动下具有多样化但真实面部动画的语音合成人脸，并能通过源图像使用通用生成网络合成出逼真的说话人脸。

Apr, 2023

GeneFace++: 实时稳定的通用音频驱动 3D 口型生成

GeneFace++ 是目前第一个实现了稳定和实时的通用音频 - 唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的 NeRF 模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

May, 2023

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021