简易、可解释且有效：使用openSMILE进行语音深度伪造检测

Aug, 2024

简易、可解释且有效：使用openSMILE进行语音深度伪造检测

Easy, Interpretable, Effective: openSMILE for voice deepfake detection

Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Müller

TL;DR本研究针对语音真实性和深度伪造检测领域中ASVspoof5数据集的最新攻击进行分析，发现通过简单的特征可以高效识别这些攻击。研究表明，这些从openSMILE库中提取的特征具有可解释性和易计算性，能够显著提高深度伪造检测的准确性，最大均等错误率(EER)可达0.8%。

Abstract

In this paper, we demonstrate that attacks in the latest ASVspoof5 dataset -- a de facto standard in the field of voice authenticity and Deepfake Detection -- can be identified with surprising accuracy using a small subset of very simplistic features. These are derived from the

发现论文，激发创造

针对语音识别和说话人识别系统的实用隐藏语音攻击

本研究通过掌握音频信号处理算法背后的领域知识，成功实现了黑盒攻击，即针对声音处理系统注入隐藏命令，利用音频特征提取算法进行失真处理，从而攻击了12个机器学习模型，并在多个硬件配置中测试并证明其实效性。

Mar, 2019

ASVspoof 2021: 伪造和深度伪造语音检测进展加速

ASVspoof 2021提出了新的deepfake语音检测任务，介绍了三个任务、每个任务的新数据库、评估指标、四个基线模型、评估平台以及比赛结果，并展示了近年来该领域取得的显著进展，尽管物理访问任务的结果显示在现实、不断变化的物理空间中检测攻击的难度很大。

Sep, 2021

HM-Conformer: 带有分层汇聚和多级分类令牌聚合方法的基于 Conformer 的音频深度伪造检测系统

音频深度伪造检测是检测由文本转语音或语音转换系统生成的欺骗攻击的任务。为了解决序列长度和信息聚合的问题，本文提出了HM-Conformer，采用分层池化方法和多级分类令牌聚合方法，通过处理不同的序列长度并聚合它们，有效地检测欺骗证据。在ASVspoof 2021 Deepfake数据集上的实验结果显示，HM-Conformer的等错误率为15.71％，与最近的系统相比，表现竞争性能。

Sep, 2023

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过300小时的语音数据，构建了一个新的跨领域的ADD数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large模型和Whisper-medium模型分别获得了4.1％和6.5％的等误差率，展示了出色的少样本ADD能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

多视角自监督表示与时间变异性应对ASVspoof5深度伪造挑战

本研究针对ASVspoof5开放领域音频深度伪造检测中的关键问题，探讨多种反制措施的有效性，特别是引入频率掩蔽方法以增强模型的鲁棒性。实验结果表明，结合多尺度时间信息和自监督学习特征，显著提高了模型性能，表明该方法在音频安全领域具有重要应用潜力。

Aug, 2024

ASVspoof 5：众包语音数据、深度伪造与大规模对抗攻击

本研究解决了语音伪造和深度伪造攻击的检测问题，尤其是通过建立一个来自更多说话者的众包数据库。在首次引入对抗攻击的情况下，文中提出的新评估指标和基线显著提升了伪造音频的自动说话人验证的鲁棒性。研究结果表明，攻击会显著影响基线系统，而参赛者的提交则带来了显著改善。

Aug, 2024

简单、可解释、有效：用于声音深伪检测的openSMILE

本研究解决了在声音真实性和深伪检测领域，如何有效识别ASVspoof5数据集中攻击的问题。我们提出了一种全新的方法，利用openSMILE库中简单特征进行识别，获得了令人惊讶的准确度，特别是对于不同的攻击类型，显示出良好的泛化能力。这项工作有助于深入理解声音反欺骗模型及其在实际应用中的挑战。

Aug, 2024

USTC-KXDIGIT系统在ASVspoof5挑战中的描述

本文介绍了USTC-KXDIGIT系统在ASVspoof5挑战中的应用，主要解决语音深伪检测和防伪自动说话人验证中的技术难题。研究创新性地结合手工特征和自监督模型的语音表示，并通过模型融合优化最终决策，结果在各种对抗条件下取得了显著的鲁棒性和优越性能。

Sep, 2024

探索WavLM后端在语音伪造和深度伪造检测中的应用

本文解决了自动语音识别领域中语音深度伪造检测的有效性问题。通过利用预训练的WavLM作为前端模型，并结合不同的后端技术，研究展示了一种系统的融合方法以提高检测性能。最终，研究结果表明，所提出的系统在检测精度上具有显著优势。

Sep, 2024

通过清洗攻击增强音频欺骗检测

本研究针对音频欺骗检测在干净数据库训练评估不足的问题，提出了一种通过清洗攻击进行数据增强的新方法。实验结果表明，所提系统在ASVspoof 5数据库中的一些特定欺骗攻击和编解码条件下表现较差，指出了现有方法的局限性。

Oct, 2024