野外语音到唇形生成只需要一个口型同步专家

Aug, 2020

野外语音到唇形生成只需要一个口型同步专家

A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar

TL;DR研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段，并使用 Wav2Lip 模型和新的评估基准，成功地在自由视频中实现了较好的 lip-sync 精度。

Abstract

In this work, we investigate the problem of lip-syncing a talking face video of an arbitrary identity to match a target speech segment. Current works excel at producing accurate lip movements on a static image or videos of specific people seen during the training phase. However, they f

lip-sync talking face video unconstrained videos wav2lip evaluation benchmarks

发现论文，激发创造

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

Diff2Lip：音頻條件下的擴散模型用於嘴唇同步

Diff2Lip 是一个基于音频条件化扩散的模型，能够在野外环境中进行口型同步，同时保持细节丰富、逼真的唇部动作、身份特征、姿势、表情和图像质量，并且相较于 Wav2Lip 和 PC-AVS 的流行方法，在 Fréchet inception 距离 (FID) 和用户意见评分 (MOS) 方面表现出更好的性能。

Aug, 2023

StyleLipSync: 基于风格的个性化唇语视频生成

本文介绍了 StyleLipSync，这是一个基于风格的个性化唇形同步视频生成模型，可从任意音频生成与身份无关的唇形同步视频。模型通过在预先训练的 StyleGAN 的语义丰富潜空间中利用表达性嘴唇先验来生成具有任意身份的视频。与之前的唇形同步方法相比，我们引入了姿态感知掩蔽，通过逐帧使用 3D 参数网格预测器动态定位掩蔽，以提高过帧自然性。此外，我们还提出了一种少量样本的唇形同步适应方法，引入同步正则器来保持唇形同步的泛化性，同时增强个人特定的视觉信息。广泛的实验证明，我们的模型可以生成准确的唇形同步视频，甚至可以在零样本设置下通过拟合少量秒数的目标视频增强看不见的面部特征。

Apr, 2023

全人工合成实验室中准确的唇语到语音合成

提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Mar, 2024

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

增强式说话人脸视频生成与评估的音频视觉语音表示专家

使用 AV-HuBERT 进行口型同步损失的计算，并引入三种新的口型同步评估指标，以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。

May, 2024