VASA-1:实时生成栩栩如生的音频驱动说话人脸
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021
我们介绍了一个独特的 4D 人脸数据集,使用它训练的神经网络 VOCA 可以根据语音信号实现逼真的人脸动画,可被用于游戏视频、虚拟现实头像等多种领域。
May, 2019
提出了一个名为 VividTalk 的两阶段通用框架,用于生成具有高视觉质量的语音驱动的说话人视频,并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。
Dec, 2023
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统,通过先理解语音信息并生成指令,再执行这些指令生成具有表情运动的生动说话人脸,实验证明该方法有效且具有一致的情感状态。
Feb, 2024
该论文提出了一个新颖的通用音频驱动框架 RealTalk,包括音频到表情转换和表情到人脸渲染两个组成部分,通过跨模态注意力对丰富的面部先验信息进行对齐,以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明,它在唇语同步和生成质量方面具有明显的优势,并且具有高效且需要较少计算资源的特点,非常适合实际应用。
Jun, 2024
本文提出了一种新的视觉感知文本转语音(VA-TTS)任务,它可以根据面对面交流中听者的语音和面部表情条件语音的生成,实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。
Jun, 2023
通过结合人脸交换和嘴唇同步技术,本文提出了一种创新的统一框架 SwapTalk,在相同的潜在空间中同时完成人脸交换和嘴唇同步任务,并引入了专家鉴别器指导和身份一致性度量等技术提高视频质量、同步准确性和身份一致性。
May, 2024
本文提出了一种基于深度学习的新型方法,用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。
May, 2018