音频反欺诈的锐度感知优化多数据集协同训练

May, 2023

音频反欺诈的锐度感知优化多数据集协同训练

Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofing

Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen

TL;DR本文提出基于多数据集协同训练和锐度感知最小化的紧凑型音频反欺诈模型，具备跨数据集的泛化性能，相较于预训练模型，参数数量少 4,000 倍，并在多个数据集上表现出竞争力。

Abstract

audio anti-spoofing for automatic speaker verification aims to safeguard users' identities from spoofing attacks. Although state-of-the-art spoofing countermeasure(CM) models perform well on specific datasets, th

audio anti-spoofing speaker verification spoofing countermeasure co-training minimization

发现论文，激发创造

神经欺骗对策如何检测部分伪造的音频？

局部篡改句子可以大大改变其意义。最近的研究表明，训练在部分伪造音频上的对策可以有效地检测此类篡改。然而，目前对对策决策过程的理解有限。我们利用 Grad-CAM 并引入一种定量分析度量来解释对策的决策。我们发现对策优先考虑当连接真实和伪造音频时产生的过渡区域的伪迹。这种聚焦与仅在完全伪造音频上训练的对策不同，后者侧重于真实和伪造部分之间的模式差异。我们的进一步研究解释了在正确或错误预测时对策聚焦的差异性质。这些观察结果为对策模型的设计和数据集的创建提供了一个基础。此外，这项工作为之前未曾深入探索的局部篡改音频检测领域的解释性奠定了基础。

Jun, 2024

近期神经欺骗对抗合成语音检测方法比较研究

本研究通过对后端神经网络与训练标准的比较，评估 ASVspoof 2019 逻辑访问任务的对策模型，发现随机初始种子会对模型性能造成显著影响，但平均池化和新的无超参数损失函数是比较优秀的技术。

Mar, 2021

嵌入空间中语音验证泛化及欺骗感知

通过在嵌入空间中利用有限的训练数据来增强简单的后端分类器，我们提出了通用的独立式自动说话人验证（G-SASV）系统，以对抗欺骗攻击，同时避免在测试（认证）阶段单独使用 CM 模块，在 ASVspoof 2019 逻辑访问数据集中，我们相对统计 ASV 后端在合并（真实和欺骗）和欺骗条件下的性能分别最大提高了 36.2％和 49.8％，以等错误率为指标。

Jan, 2024

面向单一集成的防欺骗说话人验证嵌入

本研究旨在开发一种单一的整合了反欺骗技术的演讲者验证嵌入式系统，此系统具备拒绝非目标演讲者及目标演讲者欺诈性输入的能力，而且与融合自动演讲者验证（ASV）及反欺骗对策（CM）嵌入式系统相比，能够具备竞争性的表现。该研究提出的新框架包括多阶段训练与损失函数的组合，并利用多种声码器与合成技术，来回应训练数据不足及短缺欺骗性数据的问题。实验结果表明出色的改善，进而实现了对 SASV2022 挑战赛评估协议的 SASV-EER 低至 1.06% 的性能。

May, 2023

利用大规模预训练模型进行无需训练的深度伪造语音识别

通过使用大规模预训练模型，将音频深度伪造检测问题转化为说话人验证框架，利用被测声音样本和所声称身份的声音间的不匹配暴露假音频，实现了对广义能力的全面泛化。实验表明，基于预训练模型的检测器在内部数据上与监督方法不相上下，在外部数据上则大幅超越监督方法。

May, 2024

基于 ConvNeXt 的音频防欺诈神经网络

本文提出了一种基于 ConvNeXt 网络架构的轻量级端到端反欺骗模型，通过加入通道注意力块和使用 focal loss 函数，我们的模型可以专注于最具信息量的语音表示的子带和难以分类的样本，实验表明我们的系统在 ASVSpoof 2019 LA 评估数据集中可以实现 0.64％的等误差率和 0.0187 的 min-tDCF，超过了当前最先进系统。

Sep, 2022

基于半监督学习的人脸反欺诈通用方法

本文提出了一种利用无监督预训练改进性能的方法，介绍了 Entry Antispoofing 数据集来进行监督微调，并提出了一种多类别辅助分类层，以增强检测欺骗企图的二进制分类任务，实现了在多个数据集上的最新结果。

Jun, 2022

在人脸反欺诈中提升跨领域泛化性能：洞见、设计与度量

本文介绍了一种增强数据域广义化中反欺骗性能的新视角，并提出了一种在视频层面上以度量为基础的方法，用于优化模型的稳定性和泛化能力。研究结果显示，简单地扩大模型的骨干网络并不能本质上改善模型的不稳定性，因此我们从贝叶斯的角度提出了一种集成骨干网络的方法，该方法在度量和欺骗准确度方面均取得了更好的结果，并能利用不确定性测量的优势，在训练过程中实现增强抽样以提升模型的泛化能力。通过在 OMC 数据集以及 CelebA-Spoof 和 SiW-Mv2 数据集上进行评估，我们的最终模型在偏差、方差、HTER 和 AUC 等指标上均超过了现有的最先进方法，展示了在这些方面的进展。

Jun, 2024

针对模型锐度的最小化改进了语言模型泛化

本文研究表明通过 Sharpness-Aware Minimization 优化方法，可以显著提高语言模型的泛化能力，进而在数据集有限的任务上取得更好的性能表现。

Oct, 2021

无监督域自适应的防欺骗说话人验证

研究如何提高自动说话人验证系统的欺骗稳健性，主要从基于概率线性判别分析的后端分类器入手，并运用三种无监督领域适应技术来优化它。旨在提高系统在逻辑和物理接近情境下的表现，对于后者，尤其是在被重放音频攻击时，针对真实的和伪造的情况，相对改进率分别达到 36.1% 和 5.3% 接近最高点。除此之外，还进行了一些额外的研究，如攻击分析、数据构成和与高斯后端的分数级别的对策系统的集成分析。

Mar, 2022