Feb, 2024

DiffSpeaker:基于扩散变换的语音驱动 3D 人脸动画

TL;DR使用 DiffSpeaker 网络,该网络具备新颖的有偏条件注意力模块,用于聚焦任务相关和扩散相关的条件,从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能,而且由于能够并行生成面部动作,具备快速推理的速度。