EmoSpeaker:一次性精细情感控制的说话人脸生成
本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型,通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节,并采用句子级情感类别来呈现合成语音的全局情感。
Nov, 2020
本文提出了一种面部生成方法,使用基于语音内容特征的图卷积神经网络,结合独立的情感输入,生成面部几何感知标记表示上的情感和语音感应运动,并在此基础上,利用光流引导的纹理生成网络生成纹理。
May, 2022
本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器,以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器,通过充分利用深度神经网络,实现了情感控制的灵活性和可扩展性,进而提高了合成图像的质量和细节。
May, 2023
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。进一步,提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容,以合成面部动画。大量实验表明,该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。
May, 2024
提出了基于扩散模型的 EmoTalker 方法,该方法能够在生成高质量的、可定制的面部表情时,保留原始肖像的身份特征,通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取,从而增强了对文本输入的情感理解。
Jan, 2024
本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达,设计了一个端到端的语音驱动面部生成系统,可以在输入语音、单张面部图像和情感标签时呈现表情,在图像质量、音视频同步和视觉情感表达等方面表现出色,主观和客观的评估都证明了该系统的优越性。此外,还利用生成的视频进行了人类情感识别实验,结果表明在音频和视觉模态不匹配的情况下,人们对视觉模态的响应更为显著。
Aug, 2020
在这项工作中,我们通过关注音频线索和面部动作之间的动态和微妙关系,解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性,常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题,我们提出了 EMO,这是一个新颖的框架,利用直接的音频到视频合成方法,绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护,从而产生高度表现力和逼真的动画。实验结果表明,EMO 不仅能够产生令人信服的说话视频,还能以各种风格生成唱歌视频,其在表现力和逼真度方面明显优于现有最先进的方法学。
Feb, 2024
为了实现面部三维动画的情感表达和语音的同步,研究者开发了一种名为 EMOTE 的系统,它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情,同时维持与语音同步且具有完全的情感表达。
Jun, 2023
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
Jun, 2024
DREAM-Talk 是一个两阶段扩散式音频驱动框架,通过 EmoDiff 生成多样的动态情感表达和姿态,并使用音频特征和情感风格来提升唇部同步准确性,通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像,在表达性、唇部同步准确性和感知质量方面超过现有方法。
Dec, 2023