Diff2Lip：音頻條件下的擴散模型用於嘴唇同步

Aug, 2023

Diff2Lip：音頻條件下的擴散模型用於嘴唇同步

Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization

Soumik Mukhopadhyay, Saksham Suri, Ravi Teja Gadde, Abhinav Shrivastava

TL;DRDiff2Lip 是一个基于音频条件化扩散的模型，能够在野外环境中进行口型同步，同时保持细节丰富、逼真的唇部动作、身份特征、姿势、表情和图像质量，并且相较于 Wav2Lip 和 PC-AVS 的流行方法，在 Fréchet inception 距离 (FID) 和用户意见评分 (MOS) 方面表现出更好的性能。

Abstract

The task of lip synchronization (lip-sync) seeks to match the lips of human faces with different audio. It has various applications in the film industry as well as for creating virtual avatars and for video conferencing. This is a challenging problem as one needs to simultaneously intr

lip synchronization audio-conditioned diffusion-based model image quality degradation in-the-wild talking face videos reconstruction and cross settings

发现论文，激发创造

野外语音到唇形生成只需要一个口型同步专家

研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段，并使用 Wav2Lip 模型和新的评估基准，成功地在自由视频中实现了较好的 lip-sync 精度。

Aug, 2020

SyncTalkFace：通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成

该论文提出了一个名为 Audio-Lip Memory 的技术，使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形，从而使得面部运动与音频之间出现了更加精细的时序一致性，实现了更高质量的谈话面部生成。

Nov, 2022

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

Diff-Foley: 基于潜在扩散模型的同步视频 - 音频合成

使用 Diff-Foley 方法和潜在扩散模型进行音频与视频同步生成，其在现有的大规模数据集上取得了最先进的性能。

Jun, 2023

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

DREAM-Talk 是一个两阶段扩散式音频驱动框架，通过 EmoDiff 生成多样的动态情感表达和姿态，并使用音频特征和情感风格来提升唇部同步准确性，通过视频到视频渲染模块将情感和唇部运动从虚拟 3D 头像传输到任意肖像，在表达性、唇部同步准确性和感知质量方面超过现有方法。

Dec, 2023

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

SAiD: 带有扩散效果的语音驱动面部表情动画

提出了一种使用扩散模型（SAiD）和基于 Transformer 的轻量级 U-Net 实现的语音驱动的 3D 面部动画方法，其中引入了音频和视觉之间交叉模态对齐偏差以增强唇部同步性，并通过引进 BlendVOCA 数据集解决公共资源稀缺问题。实验结果表明，该方法在唇部同步性上与基线方法相当或更出色，并确保了更多样化的唇部运动，并简化了动画编辑过程。

Dec, 2023

语音与嘴唇的动态时间对齐

本文介绍了一种基于深度音频视觉特征的音频到视频对齐方法，通过自动化的对齐实现了音频与唇形的对应，解决了后期制作中语音与唇形不匹配的问题。

Aug, 2018

Learn2Talk: 3D 口型学习 2D 口型

提出了一种名为 Learn2Talk 的学习框架，该框架可以通过利用 2D 说话面领域的两个专业点来构建更好的 3D 说话面网络，主要关注嘴唇同步、语音感知、音频 - 3D 动作回归网络等方面的研究。

Apr, 2024