对抗式学习的鲁棒音频深度伪造检测（CLAD）

Apr, 2024

对抗式学习的鲁棒音频深度伪造检测（CLAD）

CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning

Haolin Wu, Jing Chen, Ruiying Du, Cong Wu, Kun He...

TL;DR音频深度伪造的广泛应用和威胁需要强大的检测方法。本研究首次全面调查了最常用的音频深伪造检测器对操纵攻击的敏感性，并提出了 CLAD 来改善其鲁棒性。通过对比学习和长度损失等技术，CLAD 显著提高了检测的准确性和鲁棒性。

Abstract

The increasing prevalence of audio deepfakes poses significant security threats, necessitating robust detection methods. While existing detection systems exhibit promise, their →

audio deepfakes detection methods manipulation attacks clad robustness

发现论文，激发创造

CLAD：一种基于对比学习的背景去偏见方法

本篇论文提出了一种基于对比学习的方法，称为 CLAD，用于减轻卷积神经网络中的背景偏差问题，并鼓励对物体前景进行语义关注，惩罚学习与背景无关的特征。通过在 Background Challenge 数据集上的实验，证明该方法超越了以往水平，并为抑制与背景和质地等有关的虚假特征提供了可行性证明。

Oct, 2022

自适应连续学习用于音频深度伪造检测

我们提出了一种持续学习方法，称为 Radian Weight Modification (RWM)，用于音频深度伪造检测，通过引入可训练的梯度修正方向来提高知识获取和减少遗忘，在音频深度伪造检测方面优于其他方法，并显示出在图像识别等不同机器学习领域的潜在重要性。

Dec, 2023

Codecfake 数据集与深伪造音频的普适检测对策

该研究主要关注基于音频语言模型（ALM）的深度伪造音频的检测方法，提出了 CSAM 策略来解决原始 SAM 的领域上升偏差问题，并通过 Codecfake 数据集和 vocoded 数据集的共同训练，在各种测试条件下实现了最低的平均等错误率（EER）为 0.616％。

May, 2024

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

Feb, 2024

tinyCLAP：压缩对比式语音 - 文本预训练模型

研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性，得到一个高效模型 ——tinyCLAP，该模型仅使用原 Microsoft CLAP 参数的 6％，在测试的三个声音事件检测数据集上，零样本分类性能仅降低不到 5％。

Nov, 2023

一种基于多流融合和单类学习的音视频深伪造检测方法

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024

对比对抗训练中通过认知失调缓解实现健壮性

本文介绍了一种新的神经网络训练框架，通过将对比学习与对抗训练相结合，增强了模型对对抗攻击的鲁棒性，同时保持高干净度的准确性。作者发现对比学习有助于提高对抗性鲁棒性，并使用 CIFAR-10 数据集验证了他们的方法，发现其优于其他监督和自监督方法。

Mar, 2022

检测音乐深度伪造容易但实际上很困难

这篇论文展示了对真实音频数据集和假重建数据集进行分类器训练的可能性与出乎意料的容易程度，达到了 99.8% 的令人信服的准确率，标志着音乐深度伪造检测器的首次发表。然而，通过对其他领域伪造检测的几十年文献的了解，我们强调一个好的测试得分并不是故事的结束，而且指出部署的检测器可能存在的问题与未来研究方向。

May, 2024

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

克服虛假音頻檢測中的災難性遺忘

我们提出了一种连续学习算法用于检测伪造音频以克服灾难性遗忘，并引入正则化约束来控制特征分布，通过自适应权重修改方向，网络可以在新数据集上有效检测伪造音频，同时保留对旧模型的知识，实现降低灾难性遗忘。我们在多个数据集上评估了我们的方法，并在跨数据集实验中取得了显著的性能改进。

Aug, 2023