对抗式学习的鲁棒音频深度伪造检测(CLAD)
本篇论文提出了一种基于对比学习的方法,称为 CLAD,用于减轻卷积神经网络中的背景偏差问题,并鼓励对物体前景进行语义关注,惩罚学习与背景无关的特征。通过在 Background Challenge 数据集上的实验,证明该方法超越了以往水平,并为抑制与背景和质地等有关的虚假特征提供了可行性证明。
Oct, 2022
我们提出了一种持续学习方法,称为 Radian Weight Modification (RWM),用于音频深度伪造检测,通过引入可训练的梯度修正方向来提高知识获取和减少遗忘,在音频深度伪造检测方面优于其他方法,并显示出在图像识别等不同机器学习领域的潜在重要性。
Dec, 2023
该研究主要关注基于音频语言模型(ALM)的深度伪造音频的检测方法,提出了 CSAM 策略来解决原始 SAM 的领域上升偏差问题,并通过 Codecfake 数据集和 vocoded 数据集的共同训练,在各种测试条件下实现了最低的平均等错误率(EER)为 0.616%。
May, 2024
该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性,结果表明,保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略,使用较少的训练数据(20 万张图像,相较于 72 万张),在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中,该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。
Feb, 2024
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
Nov, 2023
该研究针对深度伪造音视频的检测模型的挑战,提出了一种具有多模态融合和一类学习表示级正则化技术的方法,以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%,同时提供了模型对伪造模态的识别结果。
Jun, 2024
本文介绍了一种新的神经网络训练框架,通过将对比学习与对抗训练相结合,增强了模型对对抗攻击的鲁棒性,同时保持高干净度的准确性。作者发现对比学习有助于提高对抗性鲁棒性,并使用 CIFAR-10 数据集验证了他们的方法,发现其优于其他监督和自监督方法。
Mar, 2022
这篇论文展示了对真实音频数据集和假重建数据集进行分类器训练的可能性与出乎意料的容易程度,达到了 99.8% 的令人信服的准确率,标志着音乐深度伪造检测器的首次发表。然而,通过对其他领域伪造检测的几十年文献的了解,我们强调一个好的测试得分并不是故事的结束,而且指出部署的检测器可能存在的问题与未来研究方向。
May, 2024
提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。
Jun, 2022
我们提出了一种连续学习算法用于检测伪造音频以克服灾难性遗忘,并引入正则化约束来控制特征分布,通过自适应权重修改方向,网络可以在新数据集上有效检测伪造音频,同时保留对旧模型的知识,实现降低灾难性遗忘。我们在多个数据集上评估了我们的方法,并在跨数据集实验中取得了显著的性能改进。
Aug, 2023