FlexLip：一种可控的文本转唇型系统

Jun, 2022

FlexLip：一种可控的文本转唇型系统

FlexLip: A Controllable Text-to-Lip System

Dan Oneata, Beata Lorincz, Adriana Stan, Horia Cucu

TL;DR本文中，我们提出了一个名为 FlexLip 的模块化、可控的文本生成唇形的系统，该系统分为两个模块：文本转语音和语音转唇形，并对其进行了深入的评估和测试，尤其是在新讲话者的快速适应方面进行了探究。

Abstract

The task of converting text input into video content is becoming an important topic for synthetic media generation. Several methods have been proposed with some of them reaching close-to-natural performances in constrained tasks. In this paper, we tackle a subissue of the text-to-video

text-to-video modular architecture deep neural networks speech-to-lip zero-shot adaptation

发现论文，激发创造

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

DualLip：一种用于联合读唇和生成的系统

本文介绍了 DualLip，一个使用未标记的语音和视频数据联合优化唇读和唇形生成的系统，并进一步扩展到人脸和语音生成。在 GRID 和 TCD-TIMIT 上的实验证明使用 DualLip 可以有效提高唇读、唇形生成和生成对话脸的性能。

Sep, 2020

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

全人工合成实验室中准确的唇语到语音合成

提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Mar, 2024

基于面部图像的语音控制的零样本个性化唇语合成

本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法，并采用变分自编码器对讲话人身份和语言内容进行解藕，由此实现了对未知说话人的声音特征进行控制。此外，我们还探索了跨模态表示学习以提高面部说话人嵌入（FSE）的语音控制能力。通过大量实验证明了该方法的有效性，其合成话语比其他方法更加自然且与输入视频的个性更匹配。据我们所知，这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。

May, 2023

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

自动面对面翻译

该研究提出了一种称为 “面对面翻译” 的新方法，旨在通过自动将语言 A 的视频翻译为目标语言 B 并实现逼真的嘴唇同步来改善跨语言多模态内容的用户体验。项目包括语音 - 语音翻译系统、视觉模块和基于 LipGAN 方法的生成逼真头像的技术，对涉及多种现实应用场景的人机交互和可消费多模态内容具有显著优势。

Mar, 2020

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023