探索WavLM后端在语音伪造和深度伪造检测中的应用

Sep, 2024

探索WavLM后端在语音伪造和深度伪造检测中的应用

Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection

Theophile Stourbe, Victor Miara, Theo Lepage, Reda Dehak

TL;DR本文解决了自动语音识别领域中语音深度伪造检测的有效性问题。通过利用预训练的WavLM作为前端模型，并结合不同的后端技术，研究展示了一种系统的融合方法以提高检测性能。最终，研究结果表明，所提出的系统在检测精度上具有显著优势。

Abstract

This paper describes our submitted systems to the ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - Open Condition, which consists of a stand-alone speech deepfake (bonafide vs spoof) detection task. Recently, large-scale self-supervised models become a standard in Automatic Sp

发现论文，激发创造

ASVspoof 2021: 伪造和深度伪造语音检测进展加速

ASVspoof 2021提出了新的deepfake语音检测任务，介绍了三个任务、每个任务的新数据库、评估指标、四个基线模型、评估平台以及比赛结果，并展示了近年来该领域取得的显著进展，尽管物理访问任务的结果显示在现实、不断变化的物理空间中检测攻击的难度很大。

Sep, 2021

利用低频细微特征改进 DeepFake 检测

本研究针对声音DeepFake威胁，研究使用最新的Whisper语音识别模型作为前端来增强声音真实性检测，实验证明使用Whisper模型可提高声音DeepFake检测的准确性。

Jun, 2023

HM-Conformer: 带有分层汇聚和多级分类令牌聚合方法的基于 Conformer 的音频深度伪造检测系统

音频深度伪造检测是检测由文本转语音或语音转换系统生成的欺骗攻击的任务。为了解决序列长度和信息聚合的问题，本文提出了HM-Conformer，采用分层池化方法和多级分类令牌聚合方法，通过处理不同的序列长度并聚合它们，有效地检测欺骗证据。在ASVspoof 2021 Deepfake数据集上的实验结果显示，HM-Conformer的等错误率为15.71％，与最近的系统相比，表现竞争性能。

Sep, 2023

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过300小时的语音数据，构建了一个新的跨领域的ADD数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large模型和Whisper-medium模型分别获得了4.1％和6.5％的等误差率，展示了出色的少样本ADD能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

音频虚假检测的泛化：更难还是不同？

语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明，性能差距主要是由于深度伪造生成的模型不同，而不是由于深度伪造的新质量提高而导致的，这对实际的深度伪造检测有直接影响，强调仅仅增加模型容量可能无法有效应对泛化挑战。

Jun, 2024

多视角自监督表示与时间变异性应对ASVspoof5深度伪造挑战

本研究针对ASVspoof5开放领域音频深度伪造检测中的关键问题，探讨多种反制措施的有效性，特别是引入频率掩蔽方法以增强模型的鲁棒性。实验结果表明，结合多尺度时间信息和自监督学习特征，显著提高了模型性能，表明该方法在音频安全领域具有重要应用潜力。

Aug, 2024

ASVspoof 5：众包语音数据、深度伪造与大规模对抗攻击

本研究解决了语音伪造和深度伪造攻击的检测问题，尤其是通过建立一个来自更多说话者的众包数据库。在首次引入对抗攻击的情况下，文中提出的新评估指标和基线显著提升了伪造音频的自动说话人验证的鲁棒性。研究结果表明，攻击会显著影响基线系统，而参赛者的提交则带来了显著改善。

Aug, 2024

简单、可解释、有效：用于声音深伪检测的openSMILE

本研究解决了在声音真实性和深伪检测领域，如何有效识别ASVspoof5数据集中攻击的问题。我们提出了一种全新的方法，利用openSMILE库中简单特征进行识别，获得了令人惊讶的准确度，特别是对于不同的攻击类型，显示出良好的泛化能力。这项工作有助于深入理解声音反欺骗模型及其在实际应用中的挑战。

Aug, 2024

简易、可解释且有效：使用openSMILE进行语音深度伪造检测

本研究针对语音真实性和深度伪造检测领域中ASVspoof5数据集的最新攻击进行分析，发现通过简单的特征可以高效识别这些攻击。研究表明，这些从openSMILE库中提取的特征具有可解释性和易计算性，能够显著提高深度伪造检测的准确性，最大均等错误率(EER)可达0.8%。

Aug, 2024

VoiceWukong：深度伪音检测基准评估

本研究解决了现有深度伪音检测器评估缺乏全面基准的问题，提出了一个新颖的基准工具VoiceWukong，用于评估检测器的性能。通过构建一个涵盖265,200个英语和148,200个中文的深度伪音样本数据集，该研究揭示了现有检测器在实际应用中面临的重大挑战，尤其是性能大幅下降的现象。

Sep, 2024