提出一种基于条件对抗生成的视频网络,该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性,从而实现唇部和面部平稳过度,最终通过音频片段提取的音素分布信息,开发出一种样本选择方法,可以在不降低生成视频质量的情况下有效减小训练数据集的规模。
Apr, 2018
本文中,我们探索了使用原始语音信号通过条件生成对抗网络(GAN)生成说话人的面部图像的潜力。我们使用自监督方法构建模型,同时利用自然对齐的音频和视觉信号,训练出一种从头开始生成面部图像的深度神经网络,没有任何额外的身份信息。我们使用一个新数据集对模型进行了训练,其中包含了高质量视频的演说家表达了非常出色的言语和视觉信号。
Mar, 2019
本文介绍了一种基于语音信号自动生成会说话的角色的方法,该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步,并且产生了自然的面部表情。
Jun, 2019
该论文提出了一个新颖的通用音频驱动框架 RealTalk,包括音频到表情转换和表情到人脸渲染两个组成部分,通过跨模态注意力对丰富的面部先验信息进行对齐,以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明,它在唇语同步和生成质量方面具有明显的优势,并且具有高效且需要较少计算资源的特点,非常适合实际应用。
Jun, 2024
本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法,该方法包括 FACIAL-GAN (FACe Implicit Attribute Learning Generative Adversarial Network)和 Rendering-to-Video 网络,并可以产生不仅与语音同步的唇部运动,而且还有自然的头部运动和眼部闪烁。
Aug, 2021
该论文提出了一种基于条件生成对抗网络的技术,该技术能够通过提取的带感情的语音特征来生成具自然性和表现力的口型动画,实验结果表明该技术与三种最先进的方法相比在客观和主观上都有明显的改进。
Jun, 2018
本文提出了一种基于序列到序列模型和基于生成对抗网络的真实人物合成器的创新面对面对话系统,该系统在 ESPN 节目数据上训练和评估显示出可以生成自然面部表情和逼真的面部图像。
Aug, 2019
本文提出了一种端到端的深度学习方法,用于从音频中实时生成面部动画,采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示,并自动推断不同水平的面部动作,并随着输入音频中的相应音高和潜在说话风格保持一致,无需预设或进一步的人类干预,评估结果表明,我们的方法不仅能够从音频中生成准确的嘴唇运动,还能成功回归说话人的时间变化的面部运动。
May, 2019
本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法,即通过深度神经网络驱动的三维面部模型,实现了基于音频和文本的视频合成,包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。
Dec, 2019
该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成,并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。
Jul, 2018