嵌入式表征学习网络实现风格化视频肖像动画
该研究提出了一种语音驱动的 Semantic-aware Speaking Portrait NeRF (SSP-NeRF) 模型,该模型可以通过两个语义感知模块处理细节本地面部语义和全局头颈关系,从而通过一个统一的神经辐射场呈现面部表情,且通过进行大规模非刚性的 Torso 变形来稳定人物的大比例非刚性运动。
Jan, 2022
本文提出了一种基于神经场景表示网络的方法来生成高保真度的会说话头部视频,采用条件隐式函数和动态神经辐射场来直接从输入音频信号生成视频,并支持自由调整音频信号,视角和背景图像。
Mar, 2021
使用 NeRF 和生成模型的先验知识,提出了一种名为 NeRFFaceSpeech 的新方法,通过空间同步和补全缺失信息,实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。
May, 2024
本文提出了一种名为 AE-NeRF 的音频增强神经辐射场模型,该模型能够生成具有少量样本的新演讲者的逼真肖像。实验证明,AE-NeRF 在图像保真度、音频嘴唇同步和泛化能力方面超过了现有技术,即使在有限的训练数据或训练迭代次数下也能取得优异结果。
Dec, 2023
本论文提出了一种名为 ER-NeRF 的新型条件神经辐射场(NeRF)架构,用于对话肖像合成,可以同时实现快速收敛、实时渲染和小型模型的最新性能。
Jul, 2023
本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像,并利用大量数据观察到输入音频与唇部运动高度相关,提出一种条件分解方法,其中唇部运动直接从音频输入中预测来实现同步生成,同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明,该方法实现了远优于现有方法的成果。
Jan, 2022
通过引入基于注意力的解缠模块(NeRF-AD),本文提出了一种基于 Neural Radiance Field 的语音驱动说话人脸合成方法,可以生成逼真且具有嘴唇同步效果的说话人脸视频。
Jan, 2024
研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace,并且在大规模口型阅读语料库的基础上,学习了一个变分运动生成器,并引入了一个域自适应后置网络来校准结果,实现了通用外域音频的自然结果创造。
Jan, 2023