整合视听特征用于多模态深度伪造检测

Oct, 2023

整合视听特征用于多模态深度伪造检测

Integrating Audio-Visual Features for Multimodal Deepfake Detection

Sneha Muppalla, Shan Jia, Siwei Lyu

TL;DR深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Abstract

deepfakes are ai-generated media in which an image or video has been digitally modified. The advancements made in deepfake technology have led to privacy and security issues. Most →

deepfakes ai-generated media deepfake detection audio-visual-based method binary classification

发现论文，激发创造

MIS-AVioDD: 音频 - 视觉深度伪造检测的模态不变和特定表示

本文研究针对深度伪造技术的威胁，提出了一种在表征层面上辅助音频和视觉融合的多模态深度伪造检测方法，通过使用模态不变和特定的表征确保保留表示真实或伪造内容的共同模式和每个模态的特定模式，实验证明该方法相比于单模态和多模态音视频深度伪造检测的最先进方法能够提高 17.8% 和 18.4% 的准确性。

Oct, 2023

使用单模态与多模态检测器评估音视频多模态深度伪造数据集

该篇研究通过使用最新的深度伪造音频和视频数据集（FakeAVCeleb）进行了详细的基准实验，得出结论：单模态深度伪造检测方法仅仅能够适应单个媒体类型，仅使用视频或音频来检测不够理想，最佳的检测方法是集成式检测方法。

Sep, 2021

一种基于多流融合和单类学习的音视频深伪造检测方法

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024

FakeAVCeleb: 一种新的音视频多模态 Deepfake 数据集

针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题，本研究提出了 FakeAVCeleb 这一包含视频和相应的合成唇同步伪造音频的新型多模态 Audio-Video Deepfake 数据集，其有助于打破现存音频和视频上的种族偏见，进一步帮助发展多模态深度伪造检测器。

Aug, 2021

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

由单模态向多模态人脸 Deepfake 检测的发展：一项调查

通过对深度伪造检测方法的综述研究，本论文提供了面向人脸为中心的深度伪造技术的分类、检测方法的演化以及适应新的生成模型的挑战，并探索了提高深度伪造检测器的可靠性和稳健性的方向。

Jun, 2024

基于模态内和跨模态一致性的无监督多模态深度伪造检测

我们介绍了一种新的无监督方法，通过测量多模态特征（特别是视觉、音频和身份特征）之间的内部和跨模态一致性来检测深度伪造视频，通过广泛的实验验证了我们的方法，在深度伪造视频中存在显著的内部和跨模态不一致性，可以高精度地检测出它们，并能够通过人工专家核实检测结果。

Nov, 2023

DF-TransFusion: 通过唇音交叉注意力和脸部自注意力进行多模态深度伪造检测

通过一个新颖的多模态音视频框架，结合音频和视频输入进行深度伪造检测，我们的模型利用交叉注意机制通过嘴唇同步输入音频，并通过经过微调的 VGG-16 网络提取视觉线索，随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究，突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。

Sep, 2023

情感不欺人：利用情感线索的音视频 Deepfake 检测方法

本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容，通过提取和分析同一视频中两种音频和视觉模态之间的相似性，以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”，并提出了一种深度学习网络，同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测，实验结果表明，本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4％和 96.6％的 AUC，是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。

Mar, 2020

跨领域音视频欺诈检测的基准测试

通过使用跨领域基准测试，提出了一种多模态特征的注意力混合方法，用于改进自动欺骗检测的性能。

May, 2024