情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

Jun, 2024

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation

Jiadong Liang, Feng Lu

TL;DR通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Abstract

Vivid talking face generation holds immense potential applications across diverse multimedia domains, such as film and game production. While existing methods accurately synchronize lip movements with input audio, they typically ignore crucial alignments between →

talking face generation audio-driven emotion facial cues self-supervised learning

发现论文，激发创造

情感可控泛化说话脸生成

本文提出了一种面部生成方法，使用基于语音内容特征的图卷积神经网络，结合独立的情感输入，生成面部几何感知标记表示上的情感和语音感应运动，并在此基础上，利用光流引导的纹理生成网络生成纹理。

May, 2022

隐式模块化音视表示的姿态可控说话面孔生成

本文提出了一种简洁而有效的框架来生成姿势可控的对话脸，通过使用隐式低维姿势代码对原始面部图像进行操作，实现语音和头部姿势信息的联合非身份嵌入空间，通过调制卷积重建框架，在极端视角稳健的情况下生成准确的唇形同步会话，并具有多种先进功能，例如对话面部前视。

Apr, 2021

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023

利用单张图像与情感条件生成语音驱动的说话人脸

本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达，设计了一个端到端的语音驱动面部生成系统，可以在输入语音、单张面部图像和情感标签时呈现表情，在图像质量、音视频同步和视觉情感表达等方面表现出色，主观和客观的评估都证明了该系统的优越性。此外，还利用生成的视频进行了人类情感识别实验，结果表明在音频和视觉模态不匹配的情况下，人们对视觉模态的响应更为显著。

Aug, 2020

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架，通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

情感演讲驱动的动画，包含内容 - 情感解缠技术

为了实现面部三维动画的情感表达和语音的同步，研究者开发了一种名为 EMOTE 的系统，它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情，同时维持与语音同步且具有完全的情感表达。

Jun, 2023

CSTalk: 协作监督的语音驱动 3D 情感面部动画生成

本研究提出了一种名为 CSTalk 的方法，通过建模面部运动不同区域之间的相关性并监督生成模型的训练，生成符合人脸运动模式的真实表情，解决了语音驱动的 3D 面部动画技术中面临的数据限制、唇部对齐以及面部表情自然度等挑战，实验结果表明我们的方法优于现有最先进的方法。

Apr, 2024

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023