多方面响应式听力头生成的 MFR-Net:通过去噪扩散模型
使用 NeRF 和生成模型的先验知识,提出了一种名为 NeRFFaceSpeech 的新方法,通过空间同步和补全缺失信息,实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。
May, 2024
利用扩散模型的潜力,提出了 DreamTalk 框架,通过精心设计的去噪网络、风格感知的唇部专家和风格预测器的关键组件,实现了生成具有表情的说话脸部的能力。
Dec, 2023
針對話頭生成中的風格可控性和頸部位移問題,我們提出了一種新的生成範例學習網絡(ERLNet),通過兩個學習階段的協作,成功實現了比現有算法更逼真的話頭生成。
Apr, 2024
研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace,并且在大规模口型阅读语料库的基础上,学习了一个变分运动生成器,并引入了一个域自适应后置网络来校准结果,实现了通用外域音频的自然结果创造。
Jan, 2023
Talk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。
Mar, 2024
本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像,并利用大量数据观察到输入音频与唇部运动高度相关,提出一种条件分解方法,其中唇部运动直接从音频输入中预测来实现同步生成,同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明,该方法实现了远优于现有方法的成果。
Jan, 2022
本篇论文中,我们提出了一种名为 DFRT 的方法用于 few-shot 声音驱动下的面部融合。我们的方法使用 2D 图像来学习面部的先验知识,并且可以通过少量的训练数据应用于新的身份。同时,我们还提出了一种可微的面部扭曲模块以更好地建模面部变形。最终的实验结果表明,我们的方法可以在很短的时间内生成高质量的自然音频驱动的视频。
Jul, 2022
本文提出了一种基于神经场景表示网络的方法来生成高保真度的会说话头部视频,采用条件隐式函数和动态神经辐射场来直接从输入音频信号生成视频,并支持自由调整音频信号,视角和背景图像。
Mar, 2021
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。进一步,提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容,以合成面部动画。大量实验表明,该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。
May, 2024