多语言 TTS 的说话人脸生成
利用文本生成自然的说话面部表情和语音输出,通过将 Talking Face Generation (TFG) 和 Text-to-Speech (TTS) 系统整合到一个统一框架中,在解决头部姿态生成和声音一致性等挑战的同时,实现了高质量的运动代码生成和均匀语音输出。
May, 2024
本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。
Jun, 2022
通过多语种 2D 视频数据集,引入多语种增强模型,利用语言特定的样式嵌入,提高了 3D 说话人模型的多语种性能,并提出了度量多语种环境下的唇同步准确性指标。
Jun, 2024
在这篇论文中,我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART,它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失,该模型能够生成人类般发音和音视频同步的逼真说话人脸视频,实验证明其在客观指标和人类评估方面达到了最先进的生成质量。
Dec, 2023
该研究提出了一种称为 “面对面翻译” 的新方法,旨在通过自动将语言 A 的视频翻译为目标语言 B 并实现逼真的嘴唇同步来改善跨语言多模态内容的用户体验。项目包括语音 - 语音翻译系统、视觉模块和基于 LipGAN 方法的生成逼真头像的技术,对涉及多种现实应用场景的人机交互和可消费多模态内容具有显著优势。
Mar, 2020
提出一种基于条件对抗生成的视频网络,该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性,从而实现唇部和面部平稳过度,最终通过音频片段提取的音素分布信息,开发出一种样本选择方法,可以在不降低生成视频质量的情况下有效减小训练数据集的规模。
Apr, 2018
通过自监督学习获得的离散单元,直接语音翻译实现高质量结果,克服了模型级联带来的延迟和级联错误;本文提出了一种名为 TransFace 的模型,用于直接将视听语音翻译成其他语言的视听语音,通过语音到单元翻译模型和基于单元的视听语音合成器 Unit2Lip 实现音频与视频的同步语音重新合成,进一步引入了有界时长预测器以确保等时转头说话的翻译并防止重复参考帧
Dec, 2023
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023
该论文基于 Tacotron 合成模型,采用多说话人、多语言合成的方式,在没有任何双语或平行示例的情况下,实现了跨语言的语音转移。通过使用音素输入表征,鼓励模型跨语言共享模型容量,并结合对抗损失项,鼓励模型将语音内容与说话人身份表示分离,可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。
Jul, 2019