DualLip:一种用于联合读唇和生成的系统
本文中,我们提出了一个名为 FlexLip 的模块化、可控的文本生成唇形的系统,该系统分为两个模块:文本转语音和语音转唇形,并对其进行了深入的评估和测试,尤其是在新讲话者的快速适应方面进行了探究。
Jun, 2022
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法,并获得其他方面的收益。
Mar, 2023
本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。
Jun, 2022
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新性能。
Sep, 2023
本文提出了 GLips 数据集,其中包含 25 万个公共可用的视频,用于面部讲话者的单词级别的唇语阅读,作者探究了唇语阅读是否具有语言无关的特征,以便可以利用数据集来提高唇语阅读模型。
Feb, 2022
本论文提出一种多语言对话生成系统,结合了人脸生成和文本到语音系统,可以仅通过文本输入生成多种语言的自然语音、同步口型,无论输入文本的语言如何,均可维持语音人的声音特征。同时,我们添加了翻译 API,展示神经配音技术的应用。
May, 2022
利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务,其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题,包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题:第一,通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像;第二,使用自适应三元损失解决姿势信息泄露问题;最后,我们提出了一个稳定的同步损失表达式,解决了训练不稳定性问题,并进一步减轻了唇部信息泄露问题。通过结合这些改进,我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计,确认了各个改进措施的独立贡献以及它们的互补效果。
Jul, 2023
本文研究了跨模态生成的任务,通过融合音频和图像嵌入,提出了一种新的关联损失函数和利用四种损失函数生成唇部运动的端到端模型,并在多个数据集上的实验中验证了该模型对唇形状,视角和面部特征的鲁棒性。
Mar, 2018
提出一种基于条件对抗生成的视频网络,该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性,从而实现唇部和面部平稳过度,最终通过音频片段提取的音素分布信息,开发出一种样本选择方法,可以在不降低生成视频质量的情况下有效减小训练数据集的规模。
Apr, 2018