基于关键点和外观先验的身份保持说话人脸生成

CVPRMay, 2023

基于关键点和外观先验的身份保持说话人脸生成

Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

Weizhi Zhong, Chaowei Fang, Yinqi Cai, Pengxu Wei, Gangming Zhao...

TL;DR提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点，并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中，视频渲染模型将关键点转换为面部图像，并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。

Abstract

Generating talking face videos from audio attracts lots of research interest. A few person-specific methods can generate vivid videos but require the target speaker's videos for training or fine-tuning. Existing

talking face videos person-specific methods person-generic methods two-stage framework transformer-based landmark generator

发现论文，激发创造

从语音生成说话脸部标记

本文介绍了一个能够从声学语音中实时生成说话人脸关键点的系统，该系统使用一个 LSTM 网络进行训练并能够在不同说话人和话语上进行产生。

Mar, 2018

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

基于面部特征的多说话人环境下的语音增强

本文提出了使用已有的人脸标记检测器生成时间 - 频率蒙版来提高多人交谈环境下的语音增强过程，其结果表明，我们的模型是在有限的 GRID 和 TCD-TIMIT 数据集上进行培训和评估的首个能够实现在多人交谈环境中实现独立于发言人的语音增强的模型。

Nov, 2018

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

MetaPortrait：具备快速个性化调整能力的保持身份的说话人头像生成

本文提出了一个基于 ID 保持的讲话头生成框架，改进了以往的方法，使用密集地标点实现精确的几何感知流场与自适应融合源身份，使用元学习方法实现快速个性化模型的快速适应，并且增加时空增强模块以提高细节和时序性，实验表明本文的方法在单次和个性化设置中均显著优于现有技术。

Dec, 2022