AVT2-DWF: 基于音视频融合和动态加权策略的深假检测方法
本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型,使用 Transformer 框架,通过多个变体捕捉视觉、音频和音视频显著线索,并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。
Oct, 2023
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技术,准确率和 AUC 分别提高了 14.9% 和 9.9%。
Jun, 2024
通过一个新颖的多模态音视频框架,结合音频和视频输入进行深度伪造检测,我们的模型利用交叉注意机制通过嘴唇同步输入音频,并通过经过微调的 VGG-16 网络提取视觉线索,随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究,突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。
Sep, 2023
基于多模态自我监督学习(SSL)特征提取器的多模态视频伪造检测方法,利用音频和视觉模态之间的不一致性来提取视觉和声学特征,并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性,实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。
Nov, 2023
深度伪造是通过人工智能生成的媒体,其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法,将细粒度的深度伪造识别与二元分类结合,增强了在域内和跨域测试下的检测能力。
Oct, 2023
该研究针对深度伪造音视频的检测模型的挑战,提出了一种具有多模态融合和一类学习表示级正则化技术的方法,以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%,同时提供了模型对伪造模态的识别结果。
Jun, 2024
该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF,其中嘴唇和语音同步,并具有高质量的视觉和音频。研究表明,通过调整现有的预训练深度伪造模型来适应特定身份,可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统,并获得非常逼真的伪造视频。
Nov, 2023
本文提出了一种用于检测 Deepfake 的方法,它通过提出包含多种模式的策略内容驱动音频、视觉和音视频混合进行识别。并通过定量分析证明了 BA-TFD + 算法再 Deepfake 检测方面的优越性。
May, 2023
该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建,并使用 AVFace 技术准确地重构任何人的面部和唇部运动,而无需任何 3D 地面真实测试。
Apr, 2023
提出了一种名为 AVT 的新颖的音视频识别方法,利用视频 Transformer 在时空上的表示来提高动作识别的准确性,并通过音视频瓶颈 Transformer 减少跨模态复杂度,融合自监督目标,而进一步引入一个屏蔽音频片段损失,以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。
Jan, 2024