音视频不协调基于深度伪造检测与定位

May, 2020

音视频不协调基于深度伪造检测与定位

Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

Komal Chugh, Parul Gupta, Abhinav Dhall, Ramanathan Subramanian

TL;DR本文提出了一种基于模态不和谐度量（Modality Dissonance Score，MDS）的深度伪造视频检测算法，通过计算视频中音频和视觉段之间的差异得出 MDS，同时采用交叉熵和对比损失进行学习，并在 DFDC 和 DeepFake-TIMIT 数据集上的实验表明，该方法表现优于现有技术，还可以进行时间伪造定位，准确识别伪造视频段。

Abstract

We propose detection of deepfake videos based on the dissimilarity between the audio and visual modalities, termed as the modality dissonance score (MDS). We hypothesize that manipulation of either modality will

deepfake modality dissonance score audio-visual dissimilarity contrastive loss forgery localization

发现论文，激发创造

MIS-AVioDD: 音频 - 视觉深度伪造检测的模态不变和特定表示

本文研究针对深度伪造技术的威胁，提出了一种在表征层面上辅助音频和视觉融合的多模态深度伪造检测方法，通过使用模态不变和特定的表征确保保留表示真实或伪造内容的共同模式和每个模态的特定模式，实验证明该方法相比于单模态和多模态音视频深度伪造检测的最先进方法能够提高 17.8% 和 18.4% 的准确性。

Oct, 2023

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

基于模态内和跨模态一致性的无监督多模态深度伪造检测

我们介绍了一种新的无监督方法，通过测量多模态特征（特别是视觉、音频和身份特征）之间的内部和跨模态一致性来检测深度伪造视频，通过广泛的实验验证了我们的方法，在深度伪造视频中存在显著的内部和跨模态不一致性，可以高精度地检测出它们，并能够通过人工专家核实检测结果。

Nov, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

使用单模态与多模态检测器评估音视频多模态深度伪造数据集

该篇研究通过使用最新的深度伪造音频和视频数据集（FakeAVCeleb）进行了详细的基准实验，得出结论：单模态深度伪造检测方法仅仅能够适应单个媒体类型，仅使用视频或音频来检测不够理想，最佳的检测方法是集成式检测方法。

Sep, 2021

情感不欺人：利用情感线索的音视频 Deepfake 检测方法

本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容，通过提取和分析同一视频中两种音频和视觉模态之间的相似性，以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”，并提出了一种深度学习网络，同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测，实验结果表明，本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4％和 96.6％的 AUC，是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。

Mar, 2020

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

DF-TransFusion: 通过唇音交叉注意力和脸部自注意力进行多模态深度伪造检测

通过一个新颖的多模态音视频框架，结合音频和视频输入进行深度伪造检测，我们的模型利用交叉注意机制通过嘴唇同步输入音频，并通过经过微调的 VGG-16 网络提取视觉线索，随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究，突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。

Sep, 2023

矩阵故障！基于内容驱动的音视频伪造检测与定位的大规模基准测试

本文提出了一种用于检测 Deepfake 的方法，它通过提出包含多种模式的策略内容驱动音频、视觉和音视频混合进行识别。并通过定量分析证明了 BA-TFD + 算法再 Deepfake 检测方面的优越性。

May, 2023

FTFDNet：学习通过三模态交互检测人脸视频伪造

基于 DeepFake 技术的数字面部伪造对公共媒体安全构成威胁，尤其是在使用口型操作生成说话人脸时，伪视频检测的难度进一步增加。本研究提出了一种利用视觉、音频和运动特征结合的跨模态融合模块的伪说话人脸检测网络（FTFDNet），并引进了一种新颖的音频 - 视频注意机制（AVAM），从而在已建立的伪说话人脸检测数据集（FTFDD）以及 DeepFake 视频检测数据集（DFDC 和 DF-TIMIT）上实现了比其他先进 DeepFake 视频检测方法更好的检测性能。

Jul, 2023