表征可普适的深度伪造检测中的时域动态

Sep, 2023

表征可普适的深度伪造检测中的时域动态

Characterizing the temporal dynamics of universal speech representations for generalizable deepfake detection

Yi Zhu, Saurabh Powar, Tiago H. Falk

TL;DR现有的深度伪造语音检测系统对未知攻击（即在训练期间未见过的生成算法生成的样本）缺乏普适性。最近的研究探索了使用通用语音表示来解决这个问题，并取得了令人鼓舞的结果。然而，这些工作主要关注创新下游分类器，而对表示本身却没有触及。本研究中，我们认为表征这些表示的长期时间动态对于普适性至关重要，并提出了一种新的评估表示动态的方法。实验证明，不同的生成模型使用我们提出的方法生成类似的表示动态模式。在 ASVspoof 2019 和 2021 数据集上的实验验证了该方法在检测未在训练中出现的深度伪造方法方面的优势，并在几个基准方法上取得了显著改进。

Abstract

Existing deepfake speech detection systems lack generalizability to unseen attacks (i.e., samples generated by generative algorithms not seen during training). Recent studies have explored the use of universal sp

deepfake speech detection universal speech representations generative algorithms representation dynamics asvspoof datasets

发现论文，激发创造

频率掩蔽用于通用深度伪造检测

通过探索遮蔽图像建模，我们提出了一种新颖的频率域深伪造图像检测方法，具有优异的泛化能力和显著的性能提升。

Jan, 2024

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

学习稳健且多语言的语音表征

本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现，通过使用多样性和嘈杂的语音数据学习表示，并在多个语言中验证其鲁棒性和可迁移性。结果显示，该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。

Jan, 2020

面向说话人识别的通用对抗扰动生成网络

本文研究了针对采用深度学习的生物特征识别系统的攻击方法，并证明了普适性对抗扰动的存在。我们提出了一种生成网络，通过学习低维正态分布与普适性对抗扰动的映射关系，将其应用于扰动输入信号以欺骗训练有素的说话人识别模型，并在 TIMIT 和 LibriSpeech 数据集上的实验结果表明了我们模型的有效性。

Apr, 2020

利用大规模预训练模型进行无需训练的深度伪造语音识别

通过使用大规模预训练模型，将音频深度伪造检测问题转化为说话人验证框架，利用被测声音样本和所声称身份的声音间的不匹配暴露假音频，实现了对广义能力的全面泛化。实验表明，基于预训练模型的检测器在内部数据上与监督方法不相上下，在外部数据上则大幅超越监督方法。

May, 2024

深假视频检测器的普适性研究

研究了 deepfake 检测器的泛化能力，发现现有模型难以适应未经训练的 deepfakes 数据集，但鉴于它们普遍学习合成方法的特定属性并难以提取区分特征，发现有神经元对已见和未见数据集都起到检测作用，为实现零样本泛化能力指明了可能的方向。

Aug, 2023

快慢行进的变化：语音导向手势生成中的表征和后处理分析

本文提出了一种新颖的基于语音驱动的手势生成框架，可用于虚拟代理以增强人机交互，并通过深度学习和表示学习，对不同输入输出的网络提供了客观和主观的评估以及消除运动抖动的后处理措施。

Jul, 2020

基于时空特征的深度伪造视频普适检测

通过使用 3D CNN 建立时空特征提取模型，我们提出了一种新的深度伪造视频检测方法，相比于现有方法能更准确地进行分类，并且经过测试表现出更强的通用能力。

Oct, 2020

无需使用 Deepfake 的 Deepfake 检测：通过合成的频率模式注入进行泛化

通过在图片生成过程中注入不同频率的合成模式，提高了深度伪造检测器的泛化能力。使用该方法训练的模型能够实现先进的深度伪造检测，并能有效地识别任意生成技术产生的深伪造。

Mar, 2024

音频虚假检测的泛化：更难还是不同？

语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明，性能差距主要是由于深度伪造生成的模型不同，而不是由于深度伪造的新质量提高而导致的，这对实际的深度伪造检测有直接影响，强调仅仅增加模型容量可能无法有效应对泛化挑战。

Jun, 2024