Sep, 2023

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

TL;DR这篇论文提出了 DiffPoseTalk,一种基于扩散模型和风格编码器的生成框架,该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成,并通过利用语音和风格进行生成过程的指导,进而提高用户感知。此外,作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练,解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明,该方法优于现有的方法。将会公开发布代码和数据集。