EDTalk: 高效情感演讲头部合成

Apr, 2024

EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis

Shuai Tan, Bin Ji, Mengxiao Bi, Ye Pan

TL;DR本研究提出了一个用于言语生成的高效解开耦合框架 (EDTalk)，该框架具有分解面部动态的能力，允许对嘴型、头部姿势和情绪表达进行个别操作，并能根据视频或音频输入进行条件设置。我们通过三个轻量级模块将面部动态分解为分别代表嘴部、姿势和表情的三个独立潜在空间，并利用可学习的基向量对每个空间内的特定运动进行定义。我们通过在基向量之间施加正交性约束并设计了高效的训练策略来加速训练过程，同时保证独立性。学习到的基向量存储在相应的存储器中，以实现与音频输入的共享先验知识。另外，鉴于每个空间的特性，我们还提出了一个音频到运动模块，用于音频驱动的言语生成。实验证明了 EDTalk 的有效性。

Abstract

Achieving disentangled control over multiple facial motions and accommodating diverse input modalities greatly enhances the application and entertainment of the →

disentangled control facial motions talking head generation efficient disentanglement framework audio-driven talking head synthesis

发现论文，激发创造

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架，通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

利用分离音频表示动态表情

提出一种基于声音分解学习的方法来提高音频驱动的视频生成的性能，从而使生成的视频更鲁棒。

Oct, 2019

MeshTalk: 通过跨模态分离实现从语音到三维面部动画

本文提出了一种利用音频生成三维面部动画的通用方法，该方法建立一个针对面部动画的分类潜空间，根据音频相关和不相关的信息进行信息分离，实现面部动画中高度逼真的运动合成结果，包括高准确度的唇部运动，以及未相关到音频信号的面部其他部位的合理动画，此方法在定性和定量方面均优于现有基线，且具有高逼真度。

Apr, 2021

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

音频驱动的情感视频肖像

本文提出一种称为情感视频肖像 (EVP) 的系统，通过 Cross-Reconstructed Emotion Disentanglement 技术来将语音分解为情感和内容空间并提取二维情感面部特征，然后通过 Target-Adaptive Face Synthesis 技术来生成高质量的情感动态视频人像，该方法在定性和定量实验中均表现出良好的效果。

Apr, 2021

音频驱动的说话人生成的高效情绪适应

通过参数高效的调整，情感适应音频驱动的说话头（EAT）方法可以有效地将无情感的说话头模型转换为可控情感的模型，从不同的角度引入三种轻量级适应方式，实现精确而逼真的情感控制，并在广泛应用的基准测试中取得了最先进的性能表现。

Sep, 2023

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk 是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部 3D 运动序列。

Dec, 2023