适用于所有人的配音:使用神经渲染先验进行高效配音
本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调,经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。
Oct, 2021
通过 Diffusion-based dubbing 方法,我们提出了 DiffDub 自动编码器,可以实现高质量的视觉配音,包括无痕填充和人物特定纹理等创新性策略,通过全面的实验证明,我们的方法在人员通用和多语言场景中优于现有方法,并提供无缝连贯、可理解的视频。
Nov, 2023
提出了一种基于运动风格和生成对抗网络的可视化配音方法,该方法将目标演员的签名风格保留在修改面部表情(包括口型运动)以匹配外语时,并且实验结果表明,与先前的方法相比,我们的可视化配音方法更好地保持了目标演员的固有风格。
Sep, 2019
本文提出了一种简单而高效的两阶段框架,通过面部特征作为中间先验,从真实说话头生成的核心任务中区分出音频和图像的同步和生成,以更容易获取的杂类数据培训两个子网,以及允许对给定的说话头进行进一步的微调,从而实现高保真的 few-shot 视觉配音。
Jan, 2022
本文研究了一种音频驱动的配音方法,适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化,该方法可以准确保留不同的说话风格,并且相较于现有方法具有更低的训练数据和训练时间需求,以及更快的测试速度。
Aug, 2023
该研究提出了一种新的电影配音架构,采用层次化韵律建模的方法,在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合,包括使用情感增强器捕捉情境气氛,获得了良好的实验结果。
Dec, 2022
本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法,即通过深度神经网络驱动的三维面部模型,实现了基于音频和文本的视频合成,包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。
Dec, 2019
本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。
Jun, 2022
本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务,利用了 319.57 小时的录像数据,结果挑战了一些关于人类配音和自动配音的普遍假定,论证了口头自然和翻译质量的重要性,同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响,强调自动配音系统需要更好地保留这些语音特征和语义转换,同时要重视时长约束。
Dec, 2022
本文介绍了一种新的人类视频合成方法,通过两个卷积神经网络(CNNs)明确分离 2D 屏幕空间中的人类嵌入和时间相干的细节,其中第一个 CNN 预测一个动态纹理映射,第二个 CNN 条件下第一个 CNN 的输出生成最终的视频。 该方法被应用于人类重演和单目视频的新视图合成等多个领域,并且在质量和数量方面都有显着的提高。
Jan, 2020