基于音频驱动的面部动态表情多样而逼真的生成技术

Apr, 2023

基于音频驱动的面部动态表情多样而逼真的生成技术

Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations

Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang...

TL;DRDIRFA 是一种新的方法，可以通过基于 Transformer 的概率映射网络生成出同一音频驱动下具有多样化但真实面部动画的语音合成人脸，并能通过源图像使用通用生成网络合成出逼真的说话人脸。

Abstract

audio-driven talking face generation, which aims to synthesize talking faces with realistic facial animations (including accurate lip movements, vivid facial expression details and natural head poses) corresponding to the audio, has achieved rapid progress in recent years. However, mos

audio-driven talking face generation facial expressions probabilistic mapping network transformer-based photo-realistic talking faces

发现论文，激发创造

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

利用 GAN 实现逼真的语音驱动面部动画

本文介绍了一种基于语音信号自动生成会说话的角色的方法，该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步，并且产生了自然的面部表情。

Jun, 2019

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021

基于人脸属性神经渲染的个性化语音头像生成

本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像，并利用大量数据观察到输入音频与唇部运动高度相关，提出一种条件分解方法，其中唇部运动直接从音频输入中预测来实现同步生成，同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明，该方法实现了远优于现有方法的成果。

Jan, 2022

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

基于时间 GAN 的端到端语音驱动的面部动画

使用时间依赖的 GAN 模型和音视频同步的方法，实现了从原始音频和人物图像生成高质量且与个体无关的自然面部表情和嘴唇运动的视频。

May, 2018

通过注意力音视一致性学习实现任意说话人脸生成

本文提出了一种新的任意说话脸生成框架，通过提出的 AMIE 发现音频和视频信息之间的视听一致性，以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示，该方法在性别和姿势变化方面具有鲁棒的高分辨率综合，改进了现有方法在普遍指标上的性能。

Dec, 2018