GMTalker：基于高斯混合模型的情感对话视频肖像

Dec, 2023

GMTalker：基于高斯混合模型的情感对话视频肖像

GMTalker: Gaussian Mixture based Emotional talking video Portraits

Yibo Xia, Lizhen Wang, Xiang Deng, Xiaoyan Luo, Yebin Liu

TL;DR用高保真度和可控情感的语音同步视频肖像合成，包括真实的表情、逼真的头部姿态和眨眼，是近年来一个重要且具有挑战性的任务。本文提出了 GMTalker, 一种基于高斯混合模型的情感性语音肖像生成框架，通过构建连续和多模态的潜变量空间实现更灵活的情感操作，结合流动场的动作生成器和个性化情感引导头部生成器，能够合成高保真度和忠实的情感视频肖像。定量和定性实验证明，我们的方法在图像质量、逼真度、情感准确性和动作多样性等方面优于先前的方法。

Abstract

Synthesizing high-fidelity and emotion-controllable talking video portraits, with audio-lip sync, vivid expression, realistic head pose, and eye blink, is an important and challenging task in recent years. Most of the existing methods suffer in achieving personalized precise emotion co

emotion-controllable talking video portraits gaussian mixture based emotional talking portraits generation emotion manipulation motion diversity photo-realism

发现论文，激发创造

情感可控泛化说话脸生成

本文提出了一种面部生成方法，使用基于语音内容特征的图卷积神经网络，结合独立的情感输入，生成面部几何感知标记表示上的情感和语音感应运动，并在此基础上，利用光流引导的纹理生成网络生成纹理。

May, 2022

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

高保真的通用情感交流人脸生成 —— 基于多模态情感空间学习

本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器，以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器，通过充分利用深度神经网络，实现了情感控制的灵活性和可扩展性，进而提高了合成图像的质量和细节。

May, 2023

GSTalker: 实时基于声音驱动的可变形高斯平铺生成对话脸部

通过 Gaussian Splatting 进行 3D 音频驱动的说话人脸生成模型的快速训练和实时渲染，可在短时间内生成高保真度和音频同步的结果。

Apr, 2024

CSTalk: 协作监督的语音驱动 3D 情感面部动画生成

本研究提出了一种名为 CSTalk 的方法，通过建模面部运动不同区域之间的相关性并监督生成模型的训练，生成符合人脸运动模式的真实表情，解决了语音驱动的 3D 面部动画技术中面临的数据限制、唇部对齐以及面部表情自然度等挑战，实验结果表明我们的方法优于现有最先进的方法。

Apr, 2024

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

G4G: 高保真细粒度语音人脸生成的通用框架

通过使用对角矩阵增强音频 - 图像内模态特征的普通对齐，引入多尺度监督模块以全面重演原始视频的感知保真度，强调嘴唇运动与输入音频的同步，然后使用融合网络进一步融合面部区域和其他部分，G4G 是一个突出的通用框架，可以以近乎真实水平竞争性地生成说话视频。

Feb, 2024

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Dec, 2023