基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测

Dec, 2022

基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测

Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers

Yasheng Sun, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Zhibin Hong...

TL;DR本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术，可同时利用音频和视频信息，通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略，对图像进行口型蒙版、填充和修改，从而在保证图像真实性的前提下，生成高质量的口型同步结果。

Abstract

Previous studies have explored generating accurately lip-synced talking faces for arbitrary targets given audio conditions. However, most of them deform or generate the whole facial area, leading to non-realistic results. In this work, we delve into the formulation of altering only the

lip-sync audio reference frames transformer image

发现论文，激发创造

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

单发音讯视觉相关性学习生成单次语言人脸

本文提出了一种基于 AVCT 的新型一次性说话脸部生成框架，通过从特定说话者的音频和视觉动作中探索一致的相关性，然后将基于密集运动场的音频驱动的运动场转移至参考图像，以生成具有真实嘴部形状和生动运动的视频。

Dec, 2021

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

FaceFormer：基于 Transformer 的语音驱动 3D 面部动画

提出了一种基于 Transformer 的自回归模型，称为 FaceFormer，用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码，并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示，使得该模型能够成功解决数据稀缺问题。同时，设计了两种有偏的注意机制，并进行为这个特定任务进行优化。大量实验证明，该方法优于现有的最先进技术。

Dec, 2021

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

增强式说话人脸视频生成与评估的音频视觉语音表示专家

使用 AV-HuBERT 进行口型同步损失的计算，并引入三种新的口型同步评估指标，以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。

May, 2024

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024