对抗性语音合成的协作水印技术
使用零样本语音合成的即时语音复制技术存在声音欺诈和冒充说话者的风险,为了对抗这些风险,本文提出了一种创新的音频水印技术,可以在短短 1 秒的音频片段中嵌入 32 位水印,这种水印在人类感官上不可察觉,并且对各种攻击表现出强大的韧性,可用于辨识合成的声音,并具有广泛的音频版权保护应用潜力。该技术具有高度的灵活性,可以通过组合多个水印片段来提高稳健性和扩展容量。与现有水印工具相比,通过利用 10 到 20 秒的宿主音频,本方法在十种常见攻击下具有平均误比特率(BER)为 0.48%,BER 减少了 2800%以上。请参考此链接查看我们工作的演示。
Aug, 2023
通过在嵌入空间中利用有限的训练数据来增强简单的后端分类器,我们提出了通用的独立式自动说话人验证(G-SASV)系统,以对抗欺骗攻击,同时避免在测试(认证)阶段单独使用 CM 模块,在 ASVspoof 2019 逻辑访问数据集中,我们相对统计 ASV 后端在合并(真实和欺骗)和欺骗条件下的性能分别最大提高了 36.2%和 49.8%,以等错误率为指标。
Jan, 2024
本文提出了一种基于 ConvNeXt 网络架构的轻量级端到端反欺骗模型,通过加入通道注意力块和使用 focal loss 函数,我们的模型可以专注于最具信息量的语音表示的子带和难以分类的样本,实验表明我们的系统在 ASVSpoof 2019 LA 评估数据集中可以实现 0.64%的等误差率和 0.0187 的 min-tDCF,超过了当前最先进系统。
Sep, 2022
合成语音的逼真性不断增强,但由此引发了将伪装和虚假信息传播等伦理问题。通过将人类无感知的水印嵌入到 AI 生成的音频中,音频水印技术提供了一个有希望的解决方案。然而,音频水印技术在面对常见和对抗性干扰时的稳健性仍未得到充分研究。本文提出了 AudioMarkBench,这是第一个用于评估音频水印技术对水印消除和篡改的稳健性的系统化基准。AudioMarkBench 包括一个从 Common-Voice 跨语言、生理性别和年龄创建的新数据集,3 种最先进的水印技术以及 15 种干扰类型。我们在无盒、黑盒和白盒设置下评估了这些方法的稳健性。我们的研究结果突出了当前水印技术的脆弱性,并强调了更稳健和公平的音频水印技术的需求。我们的数据集和代码可在 https://github.com/moyangkuo/AudioMarkBench 上公开获取。
Jun, 2024
在语音生成模型的快速发展领域中,为了确保音频的真实性并防范声音克隆的风险,我们提出了 AudioSeal,这是第一种专门用于局部检测人工智能生成语音的音频水印技术。通过采用一个同时训练的生成器 / 检测器架构,结合一个可在采样级别上进行局部水印检测的本地化损失以及受到听觉掩蔽启发的新型感知损失,AudioSeal 在抗真实生活音频处理和无感知性方面取得了最先进的性能,据自动和人工评估指标显示。此外,AudioSeal 设计了一个快速的单通道检测器,其检测速度显著超过现有模型达到两个数量级,使其非常适合大规模和实时应用。
Jan, 2024
ASVspoof 2019 是社区带领的挑战活动之一,主要关注自动说话人验证(ASV)系统面对欺骗的反制措施,其中考虑了逻辑和物理接入情况,三种欺骗攻击方式,使用神经声学和波形模型生成欺骗攻击,采用双重检测费用函数(t-DCF)对 ASV 系统可靠性进行评估,并囊括了对伪造音频侦测的关注。共有 63 个研究团队参与了此次活动,半数以上的团队报告的系统性能优于两个基线欺骗反制措施。 - 摘自 ASVspoof 2019 的数据库、协议和挑战结果。该工作展示了在反制欺骗和伪造音频方面的实际进展。
Apr, 2019
本研究旨在通过分析不同的声学特征空间和分类器,确定可靠和强大的对抗欺骗攻击的措施。实验结果表明,基于深度神经网络(DNN)的方法在欺骗检测任务中获得了相当低的等错误率 (EER)
May, 2017
通过使用级联自监督学习模型可在 ASV 中对抗对抗攻击,并提高自身的鲁棒性。实验结果表明,该方法能在攻击者知道或不知道自监督模型的情况下有效地抵御攻击,提高了防御性能。
Feb, 2021
研究如何提高自动说话人验证系统的欺骗稳健性,主要从基于概率线性判别分析的后端分类器入手,并运用三种无监督领域适应技术来优化它。旨在提高系统在逻辑和物理接近情境下的表现,对于后者,尤其是在被重放音频攻击时,针对真实的和伪造的情况,相对改进率分别达到 36.1% 和 5.3% 接近最高点。除此之外,还进行了一些额外的研究,如攻击分析、数据构成和与高斯后端的分数级别的对策系统的集成分析。
Mar, 2022