本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型,该模型具有良好的泛化能力和包括口型同步在内的高保真度,能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像,经实验证明其优越性。
Jun, 2023
本文提出了一种简洁而有效的框架来生成姿势可控的对话脸,通过使用隐式低维姿势代码对原始面部图像进行操作,实现语音和头部姿势信息的联合非身份嵌入空间,通过调制卷积重建框架,在极端视角稳健的情况下生成准确的唇形同步会话,并具有多种先进功能,例如对话面部前视。
Apr, 2021
该论文提出了一个新颖的通用音频驱动框架 RealTalk,包括音频到表情转换和表情到人脸渲染两个组成部分,通过跨模态注意力对丰富的面部先验信息进行对齐,以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明,它在唇语同步和生成质量方面具有明显的优势,并且具有高效且需要较少计算资源的特点,非常适合实际应用。
Jun, 2024
本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法,即通过深度神经网络驱动的三维面部模型,实现了基于音频和文本的视频合成,包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。
Dec, 2019
该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建,并使用 AVFace 技术准确地重构任何人的面部和唇部运动,而无需任何 3D 地面真实测试。
Apr, 2023
本文提出了一种构建隐式 3D 变形人脸模型的新方法,使用了学习得出的 SDF 和明确的 UV 贴图参数化,从而实现了单张图片的重建、面部表情动画的修改和纹理的直接绘制,相较于现有技术在照片逼真度、几何和表情精度上有了提升。
May, 2023
通过稳定扩散技术,提出了一种名为 AniFaceDiff 的新方法,通过增强的 2D 面部快照调节和表情适配机制实现高保真度的人脸复制,展示了在人脸复制中的卓越图像质量、身份保留和表情准确性的超过其他方法的结果
Talk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。
Mar, 2024
提出一种基于声音分解学习的方法来提高音频驱动的视频生成的性能,从而使生成的视频更鲁棒。
Oct, 2019
提出了一种基于图像的面部再现系统,其可用于将源视频用户的面孔替换为现有目标视频中演员的面孔,并保留原始目标性能,系统具有全自动化和不需要源表情数据库的特点,使用了图像检索和面部转移以产生令人信服的效果。
Feb, 2016