音频驱动的情感视频肖像

CVPRApr, 2021

Audio-Driven Emotional Video Portraits

Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy...

TL;DR本文提出一种称为情感视频肖像 (EVP) 的系统，通过 Cross-Reconstructed Emotion Disentanglement 技术来将语音分解为情感和内容空间并提取二维情感面部特征，然后通过 Target-Adaptive Face Synthesis 技术来生成高质量的情感动态视频人像，该方法在定性和定量实验中均表现出良好的效果。

Abstract

Despite previous success in generating audio-driven talking heads, most of the previous studies focus on the correlation between speech content and the mouth shape. facial emotion, which is one of the most import

emotional video portraits facial emotion disentangled features target-adaptive face synthesis audio-driven

发现论文，激发创造

情绪增强的多模一次拍摄头像

我们对 MegaPortraits 模型进行了深入的检查和评估，重点关注其用于面部表情描述符的潜在空间，并发现了其表达强烈面部动作能力的几个局限。为解决这些限制，我们提出了针对训练流程和模型架构的重大改进，推出了我们的 EMOPortraits 模型。该模型增强了对于真实支持强烈非对称面部表情的能力，在情感转移任务中取得了新的技术水平，在指标和质量方面超越了以往的方法。此外，我们将语音驱动模式融入模型，实现了在音频驱动的面部动画中的顶级性能，使得通过不同的模态，包括视觉信号、音频或两者的混合驱动源标识成为可能。还提出了一个新颖的多视角视频数据集，包括广泛范围的强烈非对称面部表情，填补了现有数据集中这类数据的空白。

Apr, 2024

情感演讲驱动的动画，包含内容 - 情感解缠技术

为了实现面部三维动画的情感表达和语音的同步，研究者开发了一种名为 EMOTE 的系统，它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情，同时维持与语音同步且具有完全的情感表达。

Jun, 2023

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻

在这项工作中，我们通过关注音频线索和面部动作之间的动态和微妙关系，解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性，常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题，我们提出了 EMO，这是一个新颖的框架，利用直接的音频到视频合成方法，绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护，从而产生高度表现力和逼真的动画。实验结果表明，EMO 不仅能够产生令人信服的说话视频，还能以各种风格生成唱歌视频，其在表现力和逼真度方面明显优于现有最先进的方法学。

Feb, 2024

利用单张图像与情感条件生成语音驱动的说话人脸

本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达，设计了一个端到端的语音驱动面部生成系统，可以在输入语音、单张面部图像和情感标签时呈现表情，在图像质量、音视频同步和视觉情感表达等方面表现出色，主观和客观的评估都证明了该系统的优越性。此外，还利用生成的视频进行了人类情感识别实验，结果表明在音频和视觉模态不匹配的情况下，人们对视觉模态的响应更为显著。

Aug, 2020

EDTalk: 高效情感演讲头部合成

本研究提出了一个用于言语生成的高效解开耦合框架 (EDTalk)，该框架具有分解面部动态的能力，允许对嘴型、头部姿势和情绪表达进行个别操作，并能根据视频或音频输入进行条件设置。我们通过三个轻量级模块将面部动态分解为分别代表嘴部、姿势和表情的三个独立潜在空间，并利用可学习的基向量对每个空间内的特定运动进行定义。我们通过在基向量之间施加正交性约束并设计了高效的训练策略来加速训练过程，同时保证独立性。学习到的基向量存储在相应的存储器中，以实现与音频输入的共享先验知识。另外，鉴于每个空间的特性，我们还提出了一个音频到运动模块，用于音频驱动的言语生成。实验证明了 EDTalk 的有效性。

Apr, 2024

从视频中感知语音的视觉三维面部表情重建

本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法，该方法不需要任何文本转录或对应音频，并使用 “lipread” 损失来指导拟合过程，以使三维重建的头部运动与原始视频片段的感知相似。此外，通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估，我们证明了该方法的有效性。

Jul, 2022

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架，通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

众人皆醉我独醒：让我依你所愿地说话

该研究提出了一种基于音频输入的编辑目标肖像画面的方法，通过将目标视频帧分解为表情、几何和姿势三个正交参数空间，再利用循环神经网络将源音频转化为表情参数，并在保留原始视频背景的同时合成一个逼真的人物主体，最后利用动态编程构建一个有序连贯且令人信服的逼真视频。

Jan, 2020