整合视听特征用于多模态深度伪造检测
本文研究针对深度伪造技术的威胁,提出了一种在表征层面上辅助音频和视觉融合的多模态深度伪造检测方法,通过使用模态不变和特定的表 征确保保留表示真实或伪造内容的共同模式和每个模态的特定模式,实验证明该方法相比于单模态和多模态音 视频深度伪造检测的最先进方法能够提高 17.8% 和 18.4% 的准确性。
Oct, 2023
该篇研究通过使用最新的深度伪造音频和视频数据集(FakeAVCeleb)进行了详细的基准实验,得出结论:单模态深度伪造检测方法仅仅能够适应单个媒体类型,仅使用视频或音频来检测不够理想,最佳的检测方法是集成式检测方法。
Sep, 2021
该研究针对深度伪造音视频的检测模型的挑战,提出了一种具有多模态融合和一类学习表示级正则化技术的方法,以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%,同时提供了模型对伪造模态的识别结果。
Jun, 2024
针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题,本研究提出了 FakeAVCeleb 这一包含视频和相应的合成唇同步伪造音频的新型多模态 Audio-Video Deepfake 数据集,其有助于打破现存音频和视频上的种族偏见,进一步帮助发展多模态深度伪造检测器。
Aug, 2021
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技术,准确率和 AUC 分别提高了 14.9% 和 9.9%。
Jun, 2024
通过对深度伪造检测方法的综述研究,本论文提供了面向人脸为中心的深度伪造技术的分类、检测方法的演化以及适应新的生成模型的挑战,并探索了提高深度伪造检测器的可靠性和稳健性的方向。
Jun, 2024
我们介绍了一种新的无监督方法,通过测量多模态特征(特别是视觉、音频和身份特征)之间的内部和跨模态一致性来检测深度伪造视频,通过广泛的实验验证了我们的方法,在深度伪造视频中存在显著的内部和跨模态不一致性,可以高精度地检测出它们,并能够通过人工专家核实检测结果。
Nov, 2023
通过一个新颖的多模态音视频框架,结合音频和视频输入进行深度伪造检测,我们的模型利用交叉注意机制通过嘴唇同步输入音频,并通过经过微调的 VGG-16 网络提取视觉线索,随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究,突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。
Sep, 2023
本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容,通过提取和分析同一视频中两种音频和视觉模态之间的相似性,以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”,并提出了一种深度学习网络,同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测,实验结果表明,本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4%和 96.6%的 AUC,是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。
Mar, 2020