CVPRDec, 2021

FaceFormer:基于 Transformer 的语音驱动 3D 面部动画

TL;DR提出了一种基于 Transformer 的自回归模型,称为 FaceFormer,用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码,并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示,使得该模型能够成功解决数据稀缺问题。同时,设计了两种有偏的注意机制,并进行为这个特定任务进行优化。大量实验证明,该方法优于现有的最先进技术。