EmoSpeaker：一次性精细情感控制的说话人脸生成

Feb, 2024

EmoSpeaker：一次性精细情感控制的说话人脸生成

EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation

Guanwen Feng, Haoran Cheng, Yunan Li, Zhiyuan Ma, Chaoneng Li...

TL;DR通过引入细粒度情绪控制和音频分离模块来实现精确表达细致情绪状态的面部动画生成，有效控制情感表达并提高生成视频的表达变化和嘴唇同步性能。

Abstract

Implementing fine-grained emotion control is crucial for emotion generation tasks because it enhances the expressive capability of the generative model, allowing it to accurately and comprehensively capture and e

fine-grained emotion control generative model facial animations audio decoupler expression variation

发现论文，激发创造

情感语音合成的细粒度情感强度传输、控制和预测

本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Nov, 2020

情感可控泛化说话脸生成

本文提出了一种面部生成方法，使用基于语音内容特征的图卷积神经网络，结合独立的情感输入，生成面部几何感知标记表示上的情感和语音感应运动，并在此基础上，利用光流引导的纹理生成网络生成纹理。

May, 2022

高保真的通用情感交流人脸生成 —— 基于多模态情感空间学习

本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器，以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器，通过充分利用深度神经网络，实现了情感控制的灵活性和可扩展性，进而提高了合成图像的质量和细节。

May, 2023

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架，通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

利用单张图像与情感条件生成语音驱动的说话人脸

本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达，设计了一个端到端的语音驱动面部生成系统，可以在输入语音、单张面部图像和情感标签时呈现表情，在图像质量、音视频同步和视觉情感表达等方面表现出色，主观和客观的评估都证明了该系统的优越性。此外，还利用生成的视频进行了人类情感识别实验，结果表明在音频和视觉模态不匹配的情况下，人们对视觉模态的响应更为显著。

Aug, 2020

EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻

在这项工作中，我们通过关注音频线索和面部动作之间的动态和微妙关系，解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性，常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题，我们提出了 EMO，这是一个新颖的框架，利用直接的音频到视频合成方法，绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护，从而产生高度表现力和逼真的动画。实验结果表明，EMO 不仅能够产生令人信服的说话视频，还能以各种风格生成唱歌视频，其在表现力和逼真度方面明显优于现有最先进的方法学。

Feb, 2024

情感演讲驱动的动画，包含内容 - 情感解缠技术

为了实现面部三维动画的情感表达和语音的同步，研究者开发了一种名为 EMOTE 的系统，它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情，同时维持与语音同步且具有完全的情感表达。

Jun, 2023

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Dec, 2023