使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画

May, 2019

使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画

Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks

Guanzhong Tian, Yi Yuan, Yong liu

TL;DR本文提出了一种端到端的深度学习方法，用于从音频中实时生成面部动画，采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示，并自动推断不同水平的面部动作，并随着输入音频中的相应音高和潜在说话风格保持一致，无需预设或进一步的人类干预，评估结果表明，我们的方法不仅能够从音频中生成准确的嘴唇运动，还能成功回归说话人的时间变化的面部运动。

Abstract

We propose an end to end deep learning approach for generating real-time facial animation from just audio. Specifically, our deep architec

facial animation deep learning audio long short-term memory network attention mechanism

发现论文，激发创造

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

你说了什么？

本文提出了一种生成说话脸部视频的方法，该方法使用了联合嵌入的编码器解码器 CNN 模型对目标音频和人脸进行建模来生成视频，并且还展示了使用不同人的语音重新配音的结果。

May, 2017