StyleLipSync: 基于风格的个性化唇语视频生成

Apr, 2023

StyleLipSync: 基于风格的个性化唇语视频生成

StyleLipSync: Style-based Personalized Lip-sync Video Generation

Taekyung Ki, Dongchan Min

TL;DR本文介绍了 StyleLipSync，这是一个基于风格的个性化唇形同步视频生成模型，可从任意音频生成与身份无关的唇形同步视频。模型通过在预先训练的 StyleGAN 的语义丰富潜空间中利用表达性嘴唇先验来生成具有任意身份的视频。与之前的唇形同步方法相比，我们引入了姿态感知掩蔽，通过逐帧使用 3D 参数网格预测器动态定位掩蔽，以提高过帧自然性。此外，我们还提出了一种少量样本的唇形同步适应方法，引入同步正则器来保持唇形同步的泛化性，同时增强个人特定的视觉信息。广泛的实验证明，我们的模型可以生成准确的唇形同步视频，甚至可以在零样本设置下通过拟合少量秒数的目标视频增强看不见的面部特征。

Abstract

In this paper, we present stylelipsync, a style-based personalized lip-sync video generative model that can generate identity-agnostic lip

stylelipsync generative model lip-sync expressive lip prior few-shot lip-sync adaptation method

发现论文，激发创造

StyleSync：基于 Style 生成器的高保真通用和个性化嘴唇同步

该研究提出了 StyleSync，一种有效的框架，通过引入风格空间和特征重构，利用音频的调制卷积来准确地修改嘴的形状，使得目标人物的身份和说话风格能够被准确地保留，从而实现高保真的唇部同步。

May, 2023

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

野外语音到唇形生成只需要一个口型同步专家

研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段，并使用 Wav2Lip 模型和新的评估基准，成功地在自由视频中实现了较好的 lip-sync 精度。

Aug, 2020

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

SyncTalkFace：通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成

该论文提出了一个名为 Audio-Lip Memory 的技术，使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形，从而使得面部运动与音频之间出现了更加精细的时序一致性，实现了更高质量的谈话面部生成。

Nov, 2022

LipSync3D：使用姿态和光照规范化从视频中高效学习个性化的三维说话脸

本文提出了一种基于视频学习的框架，用于从音频中制作个性化的 3D 说话人脸，其中使用面部标准化和自回归方法来提高样本效率并生成高保真的口型同步视频。

Jun, 2021

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

嘴唇说谎：识别唇同步 DeepFakes 中音频和视觉之间的时间不一致

我们提出了一种新颖的方法，通过利用嘴唇运动和音频信号之间的不一致性，以及模拟嘴唇和头部区域之间的生物联系来进行唇诈骗识别，实验证明我们的方法在发现唇同步视频方面的平均准确率超过 95.3％，明显优于基准方法。这项研究在现实世界场景中取得了高达 90.2％的准确率，并显示了其在真实场景部署方面的强大功能。

Jan, 2024

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

基于面部图像的语音控制的零样本个性化唇语合成

本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法，并采用变分自编码器对讲话人身份和语言内容进行解藕，由此实现了对未知说话人的声音特征进行控制。此外，我们还探索了跨模态表示学习以提高面部说话人嵌入（FSE）的语音控制能力。通过大量实验证明了该方法的有效性，其合成话语比其他方法更加自然且与输入视频的个性更匹配。据我们所知，这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。

May, 2023