PolyGlotFake：一种新颖的多语言和多模态 DeepFake 数据集

May, 2024

PolyGlotFake：一种新颖的多语言和多模态 DeepFake 数据集

PolyGlotFake: A Novel Multilingual and Multimodal DeepFake Dataset

Yang Hou, Haitao Fu, Chuankai Chen, Zida Li, Haoyu Zhang...

TL;DR通过提出一个新颖的、多语种的、多模态的深度伪造数据集 PolyGlotFake，本研究在该数据集上进行了实验，展示了多模态深度伪造检测研究中的重要挑战和实用价值。

Abstract

With the rapid advancement of generative ai, multimodal deepfakes, which manipulate both audio and visual modalities, have drawn increasing public concern. Currently, →

generative ai multimodal deepfakes deepfake detection multilingual dataset multimodal deepfake detection

发现论文，激发创造

FakeAVCeleb: 一种新的音视频多模态 Deepfake 数据集

针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题，本研究提出了 FakeAVCeleb 这一包含视频和相应的合成唇同步伪造音频的新型多模态 Audio-Video Deepfake 数据集，其有助于打破现存音频和视频上的种族偏见，进一步帮助发展多模态深度伪造检测器。

Aug, 2021

使用单模态与多模态检测器评估音视频多模态深度伪造数据集

该篇研究通过使用最新的深度伪造音频和视频数据集（FakeAVCeleb）进行了详细的基准实验，得出结论：单模态深度伪造检测方法仅仅能够适应单个媒体类型，仅使用视频或音频来检测不够理想，最佳的检测方法是集成式检测方法。

Sep, 2021

r/Fakeddit: 细粒度虚假新闻检测的新多模态基准数据集

使用机器学习分类模型是打击假新闻传播的有效方法，但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集，包括一百万个多个类别的假新闻样本，并通过远程监督进行两种，三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验，证明了 Fakeddits 的多模式和精细分类的重要性。

Nov, 2019

ChatGPT 能否检测 DeepFakes? 使用多模态大型语言模型进行媒体取证研究

通过定性和定量实验，我们调查了多模式大型语言模型在 DeepFake 检测中的能力，并展示了它们通过仔细的实验设计和及时的工程设计可以揭示 AI 生成的图像，而这一过程并不需要编程。我们讨论了多模式大型语言模型在这些任务中的局限性，并提出可能的改进。

Mar, 2024

由单模态向多模态人脸 Deepfake 检测的发展：一项调查

通过对深度伪造检测方法的综述研究，本论文提供了面向人脸为中心的深度伪造技术的分类、检测方法的演化以及适应新的生成模型的挑战，并探索了提高深度伪造检测器的可靠性和稳健性的方向。

Jun, 2024

MIS-AVioDD: 音频 - 视觉深度伪造检测的模态不变和特定表示

本文研究针对深度伪造技术的威胁，提出了一种在表征层面上辅助音频和视觉融合的多模态深度伪造检测方法，通过使用模态不变和特定的表征确保保留表示真实或伪造内容的共同模式和每个模态的特定模式，实验证明该方法相比于单模态和多模态音视频深度伪造检测的最先进方法能够提高 17.8% 和 18.4% 的准确性。

Oct, 2023

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

家长和孩子：区分多模态深度伪造图像与自然图像

本文通过系统研究最新扩散模型生成的虚假图片的真实性，分析其图像的低层特征和用作种子的文本说明的语义作用，并提供了一个新的包含约 600k 张图像的数据集 COCOFake。

Apr, 2023

DF-TransFusion: 通过唇音交叉注意力和脸部自注意力进行多模态深度伪造检测

通过一个新颖的多模态音视频框架，结合音频和视频输入进行深度伪造检测，我们的模型利用交叉注意机制通过嘴唇同步输入音频，并通过经过微调的 VGG-16 网络提取视觉线索，随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究，突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。

Sep, 2023

以深假音频作为训练自动语音转文字模型的数据增强技术

使用深度伪造音频的数据增广技术，通过在各种情景下训练语音转文字模型，验证了提出的框架。

Sep, 2023