你说了什么?
VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频,其中包括三个连续的步骤:生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤,且不需要任何用户干预,适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。
Nov, 2022
该研究提出了一种基于音频输入的编辑目标肖像画面的方法,通过将目标视频帧分解为表情、几何和姿势三个正交参数空间,再利用循环神经网络将源音频转化为表情参数,并在保留原始视频背景的同时合成一个逼真的人物主体,最后利用动态编程构建一个有序连贯且令人信服的逼真视频。
Jan, 2020
提出一种基于条件对抗生成的视频网络,该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性,从而实现唇部和面部平稳过度,最终通过音频片段提取的音素分布信息,开发出一种样本选择方法,可以在不降低生成视频质量的情况下有效减小训练数据集的规模。
Apr, 2018
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法,该方法包括 FACIAL-GAN (FACe Implicit Attribute Learning Generative Adversarial Network)和 Rendering-to-Video 网络,并可以产生不仅与语音同步的唇部运动,而且还有自然的头部运动和眼部闪烁。
Aug, 2021
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021
本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。
Jun, 2022
本文提出了一种端到端的深度学习方法,用于从音频中实时生成面部动画,采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示,并自动推断不同水平的面部动作,并随着输入音频中的相应音高和潜在说话风格保持一致,无需预设或进一步的人类干预,评估结果表明,我们的方法不仅能够从音频中生成准确的嘴唇运动,还能成功回归说话人的时间变化的面部运动。
May, 2019
该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成,并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。
Jul, 2018