JEAN：基于音频引导的联合表情与 NeRF 的谈话面孔生成

Sep, 2024

JEAN：基于音频引导的联合表情与 NeRF 的谈话面孔生成

JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation

Sai Tanmay Reddy Chakkera, Aggelina Chatziagapi, Dimitris Samaras

TL;DR本研究解决了现有方法在生成谈话面孔时难以同时保持说话者身份和真实面部表情的问题。提出了一种基于 NeRF 的网络，通过自监督学习提取音频特征，并采用对比学习方法，确保音频特征与口部运动的对齐，同时拆分与面部其他肌肉运动无关的部分。研究结果表明，该方法能够合成高保真度的谈话面孔视频，并在面部表情转移和口型同步方面达到最新的技术水平。

Abstract

We introduce a novel method for joint expression and audio-guided talking face generation. Recent approaches either struggle to preserve the speaker identity or fail to produce faithful facial expressions. To address these challenges, we propose a →

发现论文，激发创造

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频-视觉表示来实现任意主题的对话面生成，并证明所学习的音频-视觉表示对于自动读唇和音频-视频检索任务非常有用。

Jul, 2018

GeneFace++: 实时稳定的通用音频驱动3D口型生成

GeneFace++是目前第一个实现了稳定和实时的通用音频-唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的NeRF模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

May, 2023

NeRF-AD: 基于注意力解耦的神经辐射场对话人脸合成

通过引入基于注意力的解缠模块（NeRF-AD），本文提出了一种基于Neural Radiance Field的语音驱动说话人脸合成方法，可以生成逼真且具有嘴唇同步效果的说话人脸视频。

Jan, 2024

MI-NeRF: 从多种身份学习单个脸部 NeRF

学习多个身份的单个动态神经辐射场 (NeRF) 的方法，通过单眼交谈人脸视频进行学习，以建模人脸的四维动态和外观。

Mar, 2024

EDTalk: 高效情感演讲头部合成

本研究提出了一个用于言语生成的高效解开耦合框架(EDTalk)，该框架具有分解面部动态的能力，允许对嘴型、头部姿势和情绪表达进行个别操作，并能根据视频或音频输入进行条件设置。我们通过三个轻量级模块将面部动态分解为分别代表嘴部、姿势和表情的三个独立潜在空间，并利用可学习的基向量对每个空间内的特定运动进行定义。我们通过在基向量之间施加正交性约束并设计了高效的训练策略来加速训练过程，同时保证独立性。学习到的基向量存储在相应的存储器中，以实现与音频输入的共享先验知识。另外，鉴于每个空间的特性，我们还提出了一个音频到运动模块，用于音频驱动的言语生成。实验证明了EDTalk的有效性。

Apr, 2024

SwapTalk：基于音频驱动的一键定制潜空间内的说话人脸生成

通过结合人脸交换和嘴唇同步技术，本文提出了一种创新的统一框架SwapTalk，在相同的潜在空间中同时完成人脸交换和嘴唇同步任务，并引入了专家鉴别器指导和身份一致性度量等技术提高视频质量、同步准确性和身份一致性。

May, 2024

NeRFFaceSpeech：一次性音频驱动的3D说话头合成基于生成先验

使用NeRF和生成模型的先验知识，提出了一种名为NeRFFaceSpeech的新方法，通过空间同步和补全缺失信息，实现了从单一图像生成具有增强的3D一致性的语音驱动的说话头部。

May, 2024

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为SPEAK的一次性Talking Head Generation框架，通过情感和姿势控制实现与一般Talking Face Generation的区别。该方法采用Inter-Reconstructed Feature Disentanglement (IRFD)方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

通过隐式面部关键点编辑实现可控的说话人脸生成

基于音频驱动的控制型对话生成系统，可根据音频控制面部表情变形，包括单幅图像或顺序视频输入，能够实现准确而自然的口型同步，并能够定量控制嘴巴张开的形状。在广泛使用的基准测试中，我们的实验表明我们的方法在性能上优于最先进的技术，可实现表情变形的跨身份和跨语种的处理，并扩展其在异域肖像中的使用。

Jun, 2024

S^3D-NeRF：单次语音驱动神经辐射场用于高保真对话头合成

本研究针对现有语音驱动技术未能直接利用音频信息的问题，提出了一种单次语音驱动神经辐射场方法（S^3D-NeRF）。该方法引入层次化面部外观编码器和跨模态面部变形场，有效解决面部各区域的动态建模和嘴唇区域的时序一致性问题。实验表明，S^3D-NeRF在视频保真度和音频-视频同步方面超过了现有的技术。

Aug, 2024