AVT2-DWF: 基于音视频融合和动态加权策略的深假检测方法

Mar, 2024

AVT2-DWF: 基于音视频融合和动态加权策略的深假检测方法

AVT2-DWF: Improving Deepfake Detection with Audio-Visual Fusion and Dynamic Weighting Strategies

Rui Wang, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng

TL;DR本文提出了 AVT2-DWF，通过音视频双重变换和动态权重融合，增强了单一伪造模态和多模态融合下的伪造检测能力，在 DeepfakeTIMIT，FakeAVCeleb 和 DFDC 数据集上取得了最先进的性能。

Abstract

With the continuous improvements of deepfake methods, forgery messages have transitioned from single-modality to multi-modal fusion, posing new challenges for existing →

deepfake methods forgery detection algorithms avt2-dwf multi-modal fusion audio-visual dual transformers

发现论文，激发创造

AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用

本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型，使用 Transformer 框架，通过多个变体捕捉视觉、音频和音视频显著线索，并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。

Oct, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

DF-TransFusion: 通过唇音交叉注意力和脸部自注意力进行多模态深度伪造检测

通过一个新颖的多模态音视频框架，结合音频和视频输入进行深度伪造检测，我们的模型利用交叉注意机制通过嘴唇同步输入音频，并通过经过微调的 VGG-16 网络提取视觉线索，随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究，突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。

Sep, 2023

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

一种基于多流融合和单类学习的音视频深伪造检测方法

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024

自动身份识别对音频视觉深度伪造的漏洞

该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF，其中嘴唇和语音同步，并具有高质量的视觉和音频。研究表明，通过调整现有的预训练深度伪造模型来适应特定身份，可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统，并获得非常逼真的伪造视频。

Nov, 2023

矩阵故障！基于内容驱动的音视频伪造检测与定位的大规模基准测试

本文提出了一种用于检测 Deepfake 的方法，它通过提出包含多种模式的策略内容驱动音频、视觉和音视频混合进行识别。并通过定量分析证明了 BA-TFD + 算法再 Deepfake 检测方面的优越性。

May, 2023

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024