AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用

Oct, 2023

AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用

AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection

Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang

TL;DR本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型，使用 Transformer 框架，通过多个变体捕捉视觉、音频和音视频显著线索，并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。

Abstract

Forged content shared widely on social media platforms is a major social problem that requires increased regulation and poses new challenges to the research community. The recent proliferation of hyper-realistic deepfake videos has drawn attention to the threat of audio and visual forg

deepfake forgery detection audio-visual manipulation transformer fakeavceleb dataset

发现论文，激发创造

一种基于多流融合和单类学习的音视频深伪造检测方法

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

FakeAVCeleb: 一种新的音视频多模态 Deepfake 数据集

针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题，本研究提出了 FakeAVCeleb 这一包含视频和相应的合成唇同步伪造音频的新型多模态 Audio-Video Deepfake 数据集，其有助于打破现存音频和视频上的种族偏见，进一步帮助发展多模态深度伪造检测器。

Aug, 2021

AVT2-DWF: 基于音视频融合和动态加权策略的深假检测方法

本文提出了 AVT2-DWF，通过音视频双重变换和动态权重融合，增强了单一伪造模态和多模态融合下的伪造检测能力，在 DeepfakeTIMIT，FakeAVCeleb 和 DFDC 数据集上取得了最先进的性能。

Mar, 2024

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024

MIS-AVioDD: 音频 - 视觉深度伪造检测的模态不变和特定表示

本文研究针对深度伪造技术的威胁，提出了一种在表征层面上辅助音频和视觉融合的多模态深度伪造检测方法，通过使用模态不变和特定的表征确保保留表示真实或伪造内容的共同模式和每个模态的特定模式，实验证明该方法相比于单模态和多模态音视频深度伪造检测的最先进方法能够提高 17.8% 和 18.4% 的准确性。

Oct, 2023

将 EfficientNet 和 Vision Transformers 相结合用于视频深度伪造检测

本文旨在解决视频深度伪造检测的问题，特别注重于面部深度伪造，他们利用效率较高的特征提取器与各种 Vision Transformer 结合进行实验，得出的最佳模型 AUC 为 0.951，F1 得分为 88.0％.

Jul, 2021

使用单模态与多模态检测器评估音视频多模态深度伪造数据集

该篇研究通过使用最新的深度伪造音频和视频数据集（FakeAVCeleb）进行了详细的基准实验，得出结论：单模态深度伪造检测方法仅仅能够适应单个媒体类型，仅使用视频或音频来检测不够理想，最佳的检测方法是集成式检测方法。

Sep, 2021