Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Mar, 2024

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior

Jaehoon Ko, Kyusun Cho, Joungbin Lee, Heeji Yoon, Sangmin Lee...

TL;DRTalk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Abstract

Recent methods for audio-driven talking head synthesis often optimize neural radiance fields (NeRF) on a monocular talking portrait video, leveraging its capability to render high-fidelity and 3D-consistent novel-view frames. However, they often struggle to reconstruct complete face ge

audio-driven talking head synthesis neural radiance fields facial geometries audio-guided attention u-net architecture realistic facial geometries

发现论文，激发创造

NeRFFaceSpeech：一次性音频驱动的 3D 说话头合成基于生成先验

使用 NeRF 和生成模型的先验知识，提出了一种名为 NeRFFaceSpeech 的新方法，通过空间同步和补全缺失信息，实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。

May, 2024

Real3D-Portrait: 一次合成逼真的 3D 语音肖像

Real3D-Potrait 是一种框架，通过使用大型图像到平面模型和高效的运动适配器，从而改进了一次性 3D 重建的能力，实现了精确的运动条件动画，并利用头 - 躯干 - 背景超分辨率模型生成具有自然躯干运动和可切换背景的逼真视频，同时支持一次性以音频驱动的说话脸生成。与以前的方法相比，广泛的实验证明 Real3D-Portrait 对于未见过的身份具有很好的泛化能力，并生成更逼真的说话肖像视频。

Jan, 2024

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

形变神经辐射场一次高保真说话头合成

本文提出了 HiDe-NeRF，其采用显式 3D 结构表示和隐式神经渲染来提高脸部表情和姿态的真实性，从而实现高保真和自由视角的说话头合成。

Apr, 2023

GeneFace：通用高保真音频驱动的 3D 人脸合成

研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace，并且在大规模口型阅读语料库的基础上，学习了一个变分运动生成器，并引入了一个域自适应后置网络来校准结果，实现了通用外域音频的自然结果创造。

Jan, 2023

AD-NeRF：音频驱动的神经光辐射场用于说话人头部合成

本文提出了一种基于神经场景表示网络的方法来生成高保真度的会说话头部视频，采用条件隐式函数和动态神经辐射场来直接从输入音频信号生成视频，并支持自由调整音频信号，视角和背景图像。

Mar, 2021

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

ScanTalk：从未注册的扫描数据生成 3D 说话人头像

ScanTalk 是一个新的框架，利用 DiffusionNet 架构来解决面部固定拓扑结构的限制，实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较，验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。

Mar, 2024

GeneFace++: 实时稳定的通用音频驱动 3D 口型生成

GeneFace++ 是目前第一个实现了稳定和实时的通用音频 - 唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的 NeRF 模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

May, 2023

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021