DualLip：一种用于联合读唇和生成的系统

Sep, 2020

DualLip：一种用于联合读唇和生成的系统

DualLip: A System for Joint Lip Reading and Generation

Weicong Chen, Xu Tan, Yingce Xia, Tao Qin, Yu Wang...

TL;DR本文介绍了 DualLip，一个使用未标记的语音和视频数据联合优化唇读和唇形生成的系统，并进一步扩展到人脸和语音生成。在 GRID 和 TCD-TIMIT 上的实验证明使用 DualLip 可以有效提高唇读、唇形生成和生成对话脸的性能。

Abstract

lip reading aims to recognize text from talking lip, while lip generation aims to synthesize talking lip according to text, which is a key component in →

lip reading lip generation talking face generation unlabeled data duallip

发现论文，激发创造

FlexLip：一种可控的文本转唇型系统

本文中，我们提出了一个名为 FlexLip 的模块化、可控的文本生成唇形的系统，该系统分为两个模块：文本转语音和语音转唇形，并对其进行了深入的评估和测试，尤其是在新讲话者的快速适应方面进行了探究。

Jun, 2022

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

Lipper：多视角唇读合成语音

本文介绍了一种名为 Lipper 的新型多视角唇语到语音系统，将唇语识别作为回归问题建模，实现了更高水平的语音重建结果并具有实时性。

Jun, 2019

用于自动唇读系统和迁移学习的多模式德语数据集

本文提出了 GLips 数据集，其中包含 25 万个公共可用的视频，用于面部讲话者的单词级别的唇语阅读，作者探究了唇语阅读是否具有语言无关的特征，以便可以利用数据集来提高唇语阅读模型。

Feb, 2022

多语言 TTS 的说话人脸生成

本论文提出一种多语言对话生成系统，结合了人脸生成和文本到语音系统，可以仅通过文本输入生成多种语言的自然语音、同步口型，无论输入文本的语言如何，均可维持语音人的声音特征。同时，我们添加了翻译 API，展示神经配音技术的应用。

May, 2022

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

一目了然：唇部运动生成

本文研究了跨模态生成的任务，通过融合音频和图像嵌入，提出了一种新的关联损失函数和利用四种损失函数生成唇部运动的端到端模型，并在多个数据集上的实验中验证了该模型对唇形状，视角和面部特征的鲁棒性。

Mar, 2018

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018