GeneFace++: 实时稳定的通用音频驱动 3D 口型生成
研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace,并且在大规模口型阅读语料库的基础上,学习了一个变分运动生成器,并引入了一个域自适应后置网络来校准结果,实现了通用外域音频的自然结果创造。
Jan, 2023
使用 NeRF 和生成模型的先验知识,提出了一种名为 NeRFFaceSpeech 的新方法,通过空间同步和补全缺失信息,实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。
May, 2024
Talk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。
Mar, 2024
该论文提出了一个新颖的通用音频驱动框架 RealTalk,包括音频到表情转换和表情到人脸渲染两个组成部分,通过跨模态注意力对丰富的面部先验信息进行对齐,以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明,它在唇语同步和生成质量方面具有明显的优势,并且具有高效且需要较少计算资源的特点,非常适合实际应用。
Jun, 2024
使用 3D 高斯散点图作为基础,GaussianTalker 是一种基于音频驱动的说话人头部合成方法,具有准确的唇部同步和优秀的视觉质量,超过现有最先进的方法,并具有实时渲染性能。
Apr, 2024
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像,并利用大量数据观察到输入音频与唇部运动高度相关,提出一种条件分解方法,其中唇部运动直接从音频输入中预测来实现同步生成,同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明,该方法实现了远优于现有方法的成果。
Jan, 2022
该研究提出了一种语音驱动的 Semantic-aware Speaking Portrait NeRF (SSP-NeRF) 模型,该模型可以通过两个语义感知模块处理细节本地面部语义和全局头颈关系,从而通过一个统一的神经辐射场呈现面部表情,且通过进行大规模非刚性的 Torso 变形来稳定人物的大比例非刚性运动。
Jan, 2022
本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法,该方法包括 FACIAL-GAN (FACe Implicit Attribute Learning Generative Adversarial Network)和 Rendering-to-Video 网络,并可以产生不仅与语音同步的唇部运动,而且还有自然的头部运动和眼部闪烁。
Aug, 2021