VASA-1：实时生成栩栩如生的音频驱动说话人脸

Apr, 2024

VASA-1：实时生成栩栩如生的音频驱动说话人脸

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li...

TL;DRVASA 框架通过单张静态图像和语音音频剪辑生成具有真实感和吸引力的说话脸部，支持实时与模拟人类对话行为的逼真头像进行互动。

Abstract

We introduce vasa, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, →

vasa talking faces facial dynamics head movement real-time engagements

发现论文，激发创造

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

3D 说话风格的捕捉、学习和综合

我们介绍了一个独特的 4D 人脸数据集，使用它训练的神经网络 VOCA 可以根据语音信号实现逼真的人脸动画，可被用于游戏视频、虚拟现实头像等多种领域。

May, 2019

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Feb, 2024

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

视觉感知的文本转语音

本文提出了一种新的视觉感知文本转语音（VA-TTS）任务，它可以根据面对面交流中听者的语音和面部表情条件语音的生成，实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。

Jun, 2023

SwapTalk：基于音频驱动的一键定制潜空间内的说话人脸生成

通过结合人脸交换和嘴唇同步技术，本文提出了一种创新的统一框架 SwapTalk，在相同的潜在空间中同时完成人脸交换和嘴唇同步任务，并引入了专家鉴别器指导和身份一致性度量等技术提高视频质量、同步准确性和身份一致性。

May, 2024

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018