利用大规模预训练模型进行无需训练的深度伪造语音识别

May, 2024

利用大规模预训练模型进行无需训练的深度伪造语音识别

Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models

Alessandro Pianese, Davide Cozzolino, Giovanni Poggi, Luisa Verdoliva

TL;DR通过使用大规模预训练模型，将音频深度伪造检测问题转化为说话人验证框架，利用被测声音样本和所声称身份的声音间的不匹配暴露假音频，实现了对广义能力的全面泛化。实验表明，基于预训练模型的检测器在内部数据上与监督方法不相上下，在外部数据上则大幅超越监督方法。

Abstract

Generalization is a main issue for current audio deepfake detectors, which struggle to provide reliable results on out-of-distribution data. Given the speed at which more and more accurate synthesis methods are d

audio deepfake detectors generalization ability large-scale pre-trained models speaker verification framework out-of-distribution data

发现论文，激发创造

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

音频虚假检测的泛化：更难还是不同？

语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明，性能差距主要是由于深度伪造生成的模型不同，而不是由于深度伪造的新质量提高而导致的，这对实际的深度伪造检测有直接影响，强调仅仅增加模型容量可能无法有效应对泛化挑战。

Jun, 2024

深假视频检测器的普适性研究

研究了 deepfake 检测器的泛化能力，发现现有模型难以适应未经训练的 deepfakes 数据集，但鉴于它们普遍学习合成方法的特定属性并难以提取区分特征，发现有神经元对已见和未见数据集都起到检测作用，为实现零样本泛化能力指明了可能的方向。

Aug, 2023

声音脸部一致性揭示深度伪造视频

本研究提出了一种利用语音面孔匹配的方法来检测深度伪造视频，并采用预训练和微调方法以快速适应未被开发的伪造技术，实验结果表明该方法在三个不同的深度伪造数据集上表现显著优于现有的其他模型。

Mar, 2022

无需使用 Deepfake 的 Deepfake 检测：通过合成的频率模式注入进行泛化

通过在图片生成过程中注入不同频率的合成模式，提高了深度伪造检测器的泛化能力。使用该方法训练的模型能够实现先进的深度伪造检测，并能有效地识别任意生成技术产生的深伪造。

Mar, 2024

自监督图转换器用于深度伪造检测

该研究介绍了一种深假检测框架，利用自监督预训练模型提供出色的泛化能力，能够应对常见的扭曲并解释模型的决策，实验证明该框架的有效性超过当前最先进方法。

Jul, 2023

以深假音频作为训练自动语音转文字模型的数据增强技术

使用深度伪造音频的数据增广技术，通过在各种情景下训练语音转文字模型，验证了提出的框架。

Sep, 2023

深度假象图像检测在威胁环境不断演化中的近期进展分析

深度伪造检测与防御研究方向的关键词有：深度伪造、检测、防御、生成模型和对抗攻击。

Apr, 2024

自动身份识别对音频视觉深度伪造的漏洞

该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF，其中嘴唇和语音同步，并具有高质量的视觉和音频。研究表明，通过调整现有的预训练深度伪造模型来适应特定身份，可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统，并获得非常逼真的伪造视频。

Nov, 2023

自监督学习对抗示例：朝着深度伪造检测的良好泛化

利用主动合成的伪造图像进行深度学习的泛化辨别，提出了一种新的深度伪造检测方法，该方法使用一种泛化表示，并通过增加伪造的多样性和扩展敏感性来提高检测效果，采用了对抗训练策略，能获得更好的性能表现。

Mar, 2022