ObamaNet: 文本到照片级逼真唇语同步

Dec, 2017

ObamaNet: 文本到照片级逼真唇语同步

ObamaNet: Photo-realistic lip-sync from text

Rithesh Kumar, Jose Sotelo, Kundan Kumar, Alexandre de Brebisson, Yoshua Bengio

TL;DR本文介绍了 ObamaNet 这一模型，该模型利用全可训练的神经模块，生成新文本的音频文件和同步的逼真唇形视频，其中所涉及的三个主要模块分别是基于 Char2Wav 的文本转语音网络、生成与音频同步的嘴部关键点的时延 LSTM 网络、以及基于 Pix2Pix 的条件渲染视频帧的网络。

Abstract

We present obamanet, the first architecture that generates both audio and synchronized photo-realistic lip-sync videos from any new text.

obamanet audio lip-sync videos neural modules pix2pix

发现论文，激发创造

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022

你说了什么？

本文提出了一种生成说话脸部视频的方法，该方法使用了联合嵌入的编码器解码器 CNN 模型对目标音频和人脸进行建模来生成视频，并且还展示了使用不同人的语音重新配音的结果。

May, 2017

实时 2D 动画唇同步

本论文介绍了一种基于深度学习和 LSTM 模型的互动系统，该系统可以自动生成分层 2D 角色的实时唇形同步。采用小而有用的前瞻性设计，结合数据增强过程，可以在很少手工制作的培训数据下获得好的结果。

Oct, 2019

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画

本文提出了一种端到端的深度学习方法，用于从音频中实时生成面部动画，采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示，并自动推断不同水平的面部动作，并随着输入音频中的相应音高和潜在说话风格保持一致，无需预设或进一步的人类干预，评估结果表明，我们的方法不仅能够从音频中生成准确的嘴唇运动，还能成功回归说话人的时间变化的面部运动。

May, 2019

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

神经语音傀儡术：基于音频的面部再现

本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法，即通过深度神经网络驱动的三维面部模型，实现了基于音频和文本的视频合成，包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。

Dec, 2019

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023