FlexLip:一种可控的文本转唇型系统
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新性能。
Sep, 2023
本文介绍了 DualLip,一个使用未标记的语音和视频数据联合优化唇读和唇形生成的系统,并进一步扩展到人脸和语音生成。在 GRID 和 TCD-TIMIT 上的实验证明使用 DualLip 可以有效提高唇读、唇形生成和生成对话脸的性能。
Sep, 2020
本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。
Jun, 2022
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法,并获得其他方面的收益。
Mar, 2023
提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性,并在辅助技术中展示了其重要的实际应用。
Mar, 2024
本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,并采用变分自编码器对讲话人身份和语言内容进行解藕,由此实现了对未知说话人的声音特征进行控制。此外,我们还探索了跨模态表示学习以提高面部说话人嵌入(FSE)的语音控制能力。通过大量实验证明了该方法的有效性,其合成话语比其他方法更加自然且与输入视频的个性更匹配。据我们所知,这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。
May, 2023
我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法,通过将唇部运动和视觉外观分离并分别生成,使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失,我们可以保留个人身份信息,并通过使用独立编码器对唇部、非唇部外观和运动进行编码,并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明,我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。
Jun, 2024
使用一维卷积和 LSTM 的深度神经网络模型,结合语音识别模型和速度损失值的方式,实现了音频与动态唇形同步的三维面部建模和动画,其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。
May, 2022
该研究提出了一种称为 “面对面翻译” 的新方法,旨在通过自动将语言 A 的视频翻译为目标语言 B 并实现逼真的嘴唇同步来改善跨语言多模态内容的用户体验。项目包括语音 - 语音翻译系统、视觉模块和基于 LipGAN 方法的生成逼真头像的技术,对涉及多种现实应用场景的人机交互和可消费多模态内容具有显著优势。
Mar, 2020
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023