S^3D-NeRF：单次语音驱动神经辐射场用于高保真对话头合成

Aug, 2024

S^3D-NeRF：单次语音驱动神经辐射场用于高保真对话头合成

S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis

Dongze Li, Kang Zhao, Wei Wang, Yifeng Ma, Bo Peng...

TL;DR本研究针对现有语音驱动技术未能直接利用音频信息的问题，提出了一种单次语音驱动神经辐射场方法（S^3D-NeRF）。该方法引入层次化面部外观编码器和跨模态面部变形场，有效解决面部各区域的动态建模和嘴唇区域的时序一致性问题。实验表明，S^3D-NeRF在视频保真度和音频-视频同步方面超过了现有的技术。

Abstract

Talking Head Synthesis is a practical technique with wide applications. Current Neural Radiance Field (NeRF) based approaches have shown their superiority on driving one-shot talking heads with videos or signals

发现论文，激发创造

AD-NeRF：音频驱动的神经光辐射场用于说话人头部合成

本文提出了一种基于神经场景表示网络的方法来生成高保真度的会说话头部视频，采用条件隐式函数和动态神经辐射场来直接从输入音频信号生成视频，并支持自由调整音频信号，视角和背景图像。

Mar, 2021

学习动态面部辐射场以进行少样本说话头合成

本篇论文中，我们提出了一种名为 DFRT 的方法用于 few-shot 声音驱动下的面部融合。我们的方法使用 2D 图像来学习面部的先验知识，并且可以通过少量的训练数据应用于新的身份。同时，我们还提出了一种可微的面部扭曲模块以更好地建模面部变形。最终的实验结果表明，我们的方法可以在很短的时间内生成高质量的自然音频驱动的视频。

Jul, 2022

GeneFace：通用高保真音频驱动的3D人脸合成

研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace，并且在大规模口型阅读语料库的基础上，学习了一个变分运动生成器，并引入了一个域自适应后置网络来校准结果，实现了通用外域音频的自然结果创造。

Jan, 2023

GeneFace++: 实时稳定的通用音频驱动3D口型生成

GeneFace++是目前第一个实现了稳定和实时的通用音频-唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的NeRF模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

May, 2023

高保真语音与图像合成的高效区域感知网络燃射场

本论文提出了一种名为ER-NeRF的新型条件神经辐射场（NeRF）架构，用于对话肖像合成，可以同时实现快速收敛、实时渲染和小型模型的最新性能。

Jul, 2023

DT-NeRF：高保真说话肖像合成的分解三面体哈希神经辐射场

通过分解三层散射哈希神经辐射场（DT-NeRF）框架，将口腔和面部其他特征分别建模，加入音频特征并利用神经辐射场（NeRF）的能力，以增强人脸的体积表示，从而在逼真渲染的说话人脸方面取得了最先进的结果。

Sep, 2023

AE-NeRF: 音频增强的神经辐射场用于少样本说话头合成

本文提出了一种名为AE-NeRF的音频增强神经辐射场模型，该模型能够生成具有少量样本的新演讲者的逼真肖像。实验证明，AE-NeRF在图像保真度、音频嘴唇同步和泛化能力方面超过了现有技术，即使在有限的训练数据或训练迭代次数下也能取得优异结果。

Dec, 2023

NeRF-AD: 基于注意力解耦的神经辐射场对话人脸合成

通过引入基于注意力的解缠模块（NeRF-AD），本文提出了一种基于Neural Radiance Field的语音驱动说话人脸合成方法，可以生成逼真且具有嘴唇同步效果的说话人脸视频。

Jan, 2024

Talk3D：个性化3D生成先验的高保真说话肖像合成

Talk3D是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的3D感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力U-Net架构，我们的模型预测NeRF空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024

NeRFFaceSpeech：一次性音频驱动的3D说话头合成基于生成先验

使用NeRF和生成模型的先验知识，提出了一种名为NeRFFaceSpeech的新方法，通过空间同步和补全缺失信息，实现了从单一图像生成具有增强的3D一致性的语音驱动的说话头部。

May, 2024