EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻

Feb, 2024

EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻

EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

PDF

Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo

TL;DR在这项工作中，我们通过关注音频线索和面部动作之间的动态和微妙关系，解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性，常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题，我们提出了 EMO，这是一个新颖的框架，利用直接的音频到视频合成方法，绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护，从而产生高度表现力和逼真的动画。实验结果表明，EMO 不仅能够产生令人信服的说话视频，还能以各种风格生成唱歌视频，其在表现力和逼真度方面明显优于现有最先进的方法学。

Abstract

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and →

enhancing realism talking head video generation audio cues facial movements emo

发现论文，激发创造

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

情绪增强的多模一次拍摄头像

我们对 MegaPortraits 模型进行了深入的检查和评估，重点关注其用于面部表情描述符的潜在空间，并发现了其表达强烈面部动作能力的几个局限。为解决这些限制，我们提出了针对训练流程和模型架构的重大改进，推出了我们的 EMOPortraits 模型。该模型增强了对于真实支持强烈非对称面部表情的能力，在情感转移任务中取得了新的技术水平，在指标和质量方面超越了以往的方法。此外，我们将语音驱动模式融入模型，实现了在音频驱动的面部动画中的顶级性能，使得通过不同的模态，包括视觉信号、音频或两者的混合驱动源标识成为可能。还提出了一个新颖的多视角视频数据集，包括广泛范围的强烈非对称面部表情，填补了现有数据集中这类数据的空白。

Apr, 2024

EmoVOCA: 语音驱动的情感三维交谈头像

提出了一种创新的数据驱动技术，通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合，创建了一个合成数据集 EmoVOCA，再使用该数据集设计和训练了一个情感 3D 说话头生成器，通过接受 3D 面部、音频文件、情感标签和强度值作为输入，并学习将音频同步的唇部动作与面部的表情特征相结合，实验结果证明了该方法在合成逼真动画方面的优势。

Mar, 2024

EAMM: 基于音频的情感感知运动模型实现一次性情感对话人脸

本文提出 Emotion-Aware Motion Model (EAMM)，结合音频与表情视频生成单次具有真实感情模式的表情化人脸。使用无需监督的零级和一级关键点运动生成姿态，再将情感相关的面部动态表示为线性可加位移，并实现了令人满意的结果。

May, 2022

音频驱动的情感视频肖像

本文提出一种称为情感视频肖像 (EVP) 的系统，通过 Cross-Reconstructed Emotion Disentanglement 技术来将语音分解为情感和内容空间并提取二维情感面部特征，然后通过 Target-Adaptive Face Synthesis 技术来生成高质量的情感动态视频人像，该方法在定性和定量实验中均表现出良好的效果。

Apr, 2021

情感演讲驱动的动画，包含内容 - 情感解缠技术

为了实现面部三维动画的情感表达和语音的同步，研究者开发了一种名为 EMOTE 的系统，它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情，同时维持与语音同步且具有完全的情感表达。

Jun, 2023

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Dec, 2023

EmoSpeaker：一次性精细情感控制的说话人脸生成

通过引入细粒度情绪控制和音频分离模块来实现精确表达细致情绪状态的面部动画生成，有效控制情感表达并提高生成视频的表达变化和嘴唇同步性能。

Feb, 2024

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

Emo-Avatar: 通过纹理渲染实现高效的单目视频风格化头像

艺术视频肖像生成是计算机图形学和视觉领域中一个重要且受追捧的任务。针对现有方法所面临的大样本数据集、定制过程繁琐和图像质量下降等挑战，我们提出了一种名为 Emo-Avatar 的高效单调视频风格化头像生成方法，利用延迟神经渲染技术增强 StyleGAN 生成动态的可驾驶肖像视频的能力。该方法通过两阶段的延迟神经渲染流程，结合 PIT 初始化和拉普拉斯金字塔纹理采样等技术，实现了对风格化肖像视频的快速生成和编辑，具有比现有方法更高的训练效率、渲染质量和可编辑性。

Feb, 2024