FaceDiffuser: 基于扩散的语音驱动 3D 面部动画合成
我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型,我们能够在保持表现力丰富的唇部运动输出的同时,允许随机性和动作编辑。经过定量和定性评估,我们展示了我们的方法优于现有的技术,并产生更具保真度和多样性的语音驱动动画。
Dec, 2023
使用 DiffSpeaker 网络,该网络具备新颖的有偏条件注意力模块,用于聚焦任务相关和扩散相关的条件,从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能,而且由于能够并行生成面部动作,具备快速推理的速度。
Feb, 2024
利用对比学习进行个性化三维面部动画生成和知识蒸馏以加速动画生成的扩散式方法 DiffusionTalker 优于现有方法。
Nov, 2023
基于扩散的语音驱动 3D 面部动画综合 DF-3DFace 方法,成功从语音中生成高度可变的面部形状和动作,同时实现比现有技术更逼真的面部动画。
Aug, 2023
提出了一种使用扩散模型(SAiD)和基于 Transformer 的轻量级 U-Net 实现的语音驱动的 3D 面部动画方法,其中引入了音频和视觉之间交叉模态对齐偏差以增强唇部同步性,并通过引进 BlendVOCA 数据集解决公共资源稀缺问题。实验结果表明,该方法在唇部同步性上与基线方法相当或更出色,并确保了更多样化的唇部运动,并简化了动画编辑过程。
Dec, 2023
这篇论文提出了 DiffPoseTalk,一种基于扩散模型和风格编码器的生成框架,该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成,并通过利用语音和风格进行生成过程的指导,进而提高用户感知。此外,作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练,解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明,该方法优于现有的方法。将会公开发布代码和数据集。
Sep, 2023
DiffusionAvatars 通过合成高保真度的三维头像人物,提供了对姿态和表情的直观控制。我们提出了一种基于扩散的神经渲染器,利用通用的二维先验生成引人注目的人脸图像。通过从目标视点渲染神经参数头模型(NPHM)对表情和头部姿态进行粗略指导,我们作为人物的代理几何体。此外,为了增强精细面部表情的建模,我们直接在 NPHM 中通过交叉注意力采用从 NPHM 获得的表情代码来调整 DiffusionAvatars。最后,为了在不同视点和表情之间综合一致地细化表面细节,我们通过 NPHM 的规范空间在头部表面上装配可学习的空间特征。我们使用人物的 RGB 视频和相应跟踪的 NPHM 网格对 DiffusionAvatars 进行训练,并在自我重演和动画场景中测试所得到的头像。我们的实验证明,DiffusionAvatars 在生成人物的新姿态和表情的时候能够产生时间上连贯而视觉上有吸引力的视频,优于现有方法。
Nov, 2023
利用扩散模型 enhance 了图生成模型在 3D 领域的能力,以图神经网络作为去噪扩散模型,通过在网格空间上直接进行扩散过程并生成 3D 面部表情,实现了可控且高保真的 4D 面部动画合成。
Mar, 2024
本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法,采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系,并结合额外的隐式信息进行高保真度的面部生成,并且能够优雅地用于面部交换。
May, 2023