FlowVQTalker：通过正则化流和量化实现高质量的情感说话人脸生成

Mar, 2024

FlowVQTalker：通过正则化流和量化实现高质量的情感说话人脸生成

FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization

Shuai Tan, Bin Ji, Ye Pan

TL;DR利用归一化流和向量量化建模生成既满足面部动态的同步性和多对多映射关系，又包含高清纹理和细节牙齿的情感说话脸，具体方法为通过流式系数生成器对面部情绪进行编码，利用伴随音频引导随机采样生成唇同步和不确定的非言语面部线索，并借助学习的码本提供富有表现力、高质量的纹理，从而增强结果的情感感知。

Abstract

Generating emotional talking faces is a practical yet challenging endeavor. To create a lifelike avatar, we draw upon two critical insights from a human perspective: 1) The connection between audio and the non-de

emotional talking faces flowvqtalker audio facial dynamics expressive facial images

发现论文，激发创造

高保真的通用情感交流人脸生成 —— 基于多模态情感空间学习

本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器，以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器，通过充分利用深度神经网络，实现了情感控制的灵活性和可扩展性，进而提高了合成图像的质量和细节。

May, 2023

情感可控泛化说话脸生成

本文提出了一种面部生成方法，使用基于语音内容特征的图卷积神经网络，结合独立的情感输入，生成面部几何感知标记表示上的情感和语音感应运动，并在此基础上，利用光流引导的纹理生成网络生成纹理。

May, 2022

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

EmoSpeaker：一次性精细情感控制的说话人脸生成

通过引入细粒度情绪控制和音频分离模块来实现精确表达细致情绪状态的面部动画生成，有效控制情感表达并提高生成视频的表达变化和嘴唇同步性能。

Feb, 2024

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

OpFlowTalker：通过光流引导实现逼真自然的说话人脸生成

通过应用光流来指导面部图像生成，增强帧与帧之间的连续性和语义一致性，这篇论文提出了一种名为 “OpFlowTalker” 的新方法，利用音频输入预测的光流变化而非直接预测图像，平滑图像的过渡并使其与语义内容相吻合，通过序列融合技术替代单帧的独立生成，同时引入光流同步模块来调节全脸和唇部运动，优化视觉合成的区域动态，并引入了一种可以准确测量合成视频中唇读能力的 “视觉文本一致性得分（VTCS）”，广泛的实证证据验证了我们的方法的有效性。

May, 2024

利用单张图像与情感条件生成语音驱动的说话人脸

本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达，设计了一个端到端的语音驱动面部生成系统，可以在输入语音、单张面部图像和情感标签时呈现表情，在图像质量、音视频同步和视觉情感表达等方面表现出色，主观和客观的评估都证明了该系统的优越性。此外，还利用生成的视频进行了人类情感识别实验，结果表明在音频和视觉模态不匹配的情况下，人们对视觉模态的响应更为显著。

Aug, 2020

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

朝着变量和协调的整体语音运动生成

通过 ProbTalk 的统一概率框架，以综合协调性和可变性为核心，生成自然多样的整体语音运动，从而比现有方法在质量和数量上都实现了更高的真实度。

Mar, 2024