DiffTalker: 通过中间关键点协同驱动的音频 - 图像扩散方案用于口型模拟
使用 DiffSpeaker 网络,该网络具备新颖的有偏条件注意力模块,用于聚焦任务相关和扩散相关的条件,从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能,而且由于能够并行生成面部动作,具备快速推理的速度。
Feb, 2024
利用扩散模型的潜力,提出了 DreamTalk 框架,通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件,实现了生成具有表情的说话脸部的能力。
Dec, 2023
利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。
Nov, 2023
DREAM-Talk 是一个两阶段扩散式音频驱动框架,通过 EmoDiff 生成多样的动态情感表达和姿态,并使用音频特征和情感风格来提升唇部同步准确性,通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像,在表达性、唇部同步准确性和感知质量方面超过现有方法。
Dec, 2023
通过提出的 MoDiTalker 模型,我们成功地解决了传统 GAN 模型在生成对话头像时存在的质量有限和训练不稳定的问题,并通过引入音频到运动和运动到视频两个模块,实现了高质量的对话头像生成。
Mar, 2024
DIRFA 是一种新的方法,可以通过基于 Transformer 的概率映射网络生成出同一音频驱动下具有多样化但真实面部动画的语音合成人脸,并能通过源图像使用通用生成网络合成出逼真的说话人脸。
Apr, 2023
我们提出了一种基于扩散变压器的新型对话头合成流程,利用音频作为条件来驱动扩散模型的去噪过程。我们的方法具有可扩展性,可以推广到多个身份,同时产生高质量的结果。通过与现有的对话头合成方法进行比较,我们对我们提出的方法进行训练和评估,并展示了我们的模型在视觉质量和嘴唇同步准确性方面可以与这些方法竞争。我们的结果突显了我们提出的方法在包括虚拟助手、娱乐和教育在内的广泛应用中的潜力。请参阅我们的补充材料以获取结果和用户研究的视频演示。
Dec, 2023
通过使用面部特征作为控制信号,我们提供了一个两阶段和跨模态可控的视频生成流程,以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明,该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。
Feb, 2024
ScanTalk 是一个新的框架,利用 DiffusionNet 架构来解决面部固定拓扑结构的限制,实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较,验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。
Mar, 2024