野外语音到唇形生成只需要一个口型同步专家
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法,并获得其他方面的收益。
Mar, 2023
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新性能。
Sep, 2023
Diff2Lip 是一个基于音频条件化扩散的模型,能够在野外环境中进行口型同步,同时保持细节丰富、逼真的唇部动作、身份特征、姿势、表情和图像质量,并且相较于 Wav2Lip 和 PC-AVS 的流行方法,在 Fréchet inception 距离 (FID) 和用户意见评分 (MOS) 方面表现出更好的性能。
Aug, 2023
本文介绍了 StyleLipSync,这是一个基于风格的个性化唇形同步视频生成模型,可从任意音频生成与身份无关的唇形同步视频。模型通过在预先训练的 StyleGAN 的语义丰富潜空间中利用表达性嘴唇先验来生成具有任意身份的视频。与之前的唇形同步方法相比,我们引入了姿态感知掩蔽,通过逐帧使用 3D 参数网格预测器动态定位掩蔽,以提高过帧自然性。此外,我们还提出了一种少量样本的唇形同步适应方法,引入同步正则器来保持唇形同步的泛化性,同时增强个人特定的视觉信息。广泛的实验证明,我们的模型可以生成准确的唇形同步视频,甚至可以在零样本设置下通过拟合少量秒数的目标视频增强看不见的面部特征。
Apr, 2023
提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性,并在辅助技术中展示了其重要的实际应用。
Mar, 2024
我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法,通过将唇部运动和视觉外观分离并分别生成,使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失,我们可以保留个人身份信息,并通过使用独立编码器对唇部、非唇部外观和运动进行编码,并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明,我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。
Jun, 2024
VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频,其中包括三个连续的步骤:生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤,且不需要任何用户干预,适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。
Nov, 2022
本文提出了一种基于说话者唇部运动的语音合成方法,通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计,该模型可以更准确、自然地模拟说话者的语音,其量化、定性评估结果表明,该方法比现有方法的可理解性提高了四倍。
May, 2020
使用 AV-HuBERT 进行口型同步损失的计算,并引入三种新的口型同步评估指标,以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。
May, 2024