RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

Jun, 2024

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang...

TL;DR该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Abstract

Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold

audio-driven face generation lip synchronization facial renderings expression prediction real-time performance

发现论文，激发创造

基于音频驱动的面部动态表情多样而逼真的生成技术

DIRFA 是一种新的方法，可以通过基于 Transformer 的概率映射网络生成出同一音频驱动下具有多样化但真实面部动画的语音合成人脸，并能通过源图像使用通用生成网络合成出逼真的说话人脸。

Apr, 2023

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024

GeneFace++: 实时稳定的通用音频驱动 3D 口型生成

GeneFace++ 是目前第一个实现了稳定和实时的通用音频 - 唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的 NeRF 模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

May, 2023

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

利用 GAN 实现逼真的语音驱动面部动画

本文介绍了一种基于语音信号自动生成会说话的角色的方法，该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步，并且产生了自然的面部表情。

Jun, 2019