AudioMarkBench: 音频水印鲁棒性基准测试

Jun, 2024

AudioMarkBench: 音频水印鲁棒性基准测试

AudioMarkBench: Benchmarking Robustness of Audio Watermarking

Hongbin Liu, Moyang Guo, Zhengyuan Jiang, Lun Wang, Neil Zhenqiang Gong

TL;DR合成语音的逼真性不断增强，但由此引发了将伪装和虚假信息传播等伦理问题。通过将人类无感知的水印嵌入到 AI 生成的音频中，音频水印技术提供了一个有希望的解决方案。然而，音频水印技术在面对常见和对抗性干扰时的稳健性仍未得到充分研究。本文提出了 AudioMarkBench，这是第一个用于评估音频水印技术对水印消除和篡改的稳健性的系统化基准。AudioMarkBench 包括一个从 Common-Voice 跨语言、生理性别和年龄创建的新数据集，3 种最先进的水印技术以及 15 种干扰类型。我们在无盒、黑盒和白盒设置下评估了这些方法的稳健性。我们的研究结果突出了当前水印技术的脆弱性，并强调了更稳健和公平的音频水印技术的需求。我们的数据集和代码可在 https://github.com/moyangkuo/AudioMarkBench 上公开获取。

Abstract

The increasing realism of synthetic speech, driven by advancements in text-to-speech models, raises ethical concerns regarding impersonation and disinformation. audio watermarking offers a promising solution via

synthetic speech audio watermarking robustness benchmark fair audio watermarking

发现论文，激发创造

WavMark: 音频生成的水印技术

使用零样本语音合成的即时语音复制技术存在声音欺诈和冒充说话者的风险，为了对抗这些风险，本文提出了一种创新的音频水印技术，可以在短短 1 秒的音频片段中嵌入 32 位水印，这种水印在人类感官上不可察觉，并且对各种攻击表现出强大的韧性，可用于辨识合成的声音，并具有广泛的音频版权保护应用潜力。该技术具有高度的灵活性，可以通过组合多个水印片段来提高稳健性和扩展容量。与现有水印工具相比，通过利用 10 到 20 秒的宿主音频，本方法在十种常见攻击下具有平均误比特率（BER）为 0.48％，BER 减少了 2800％以上。请参考此链接查看我们工作的演示。

Aug, 2023

评估耐久性：多模式数字水印的基准洞察

水印技术的鲁棒性在实际应用中的重要性和可靠性，并通过评估图片和文本生成模型生成的带水印内容在常见的实际场景下的鲁棒性验证了这一点。

Jun, 2024

音频生成扩散模型的隐形数字水印

本文提出了首个应用于基于 mel 频谱图的音频扩散模型的水印技术，以解决音频机器学习领域中模型完整性和数据版权的问题。通过无形水印触发机制，该模型在良性音频生成中具有卓越性能，并能保护模型免受未经授权的修改。

Sep, 2023

WaterBench：针对大型语言模型的水印综合评估

为了解决大型语言模型的滥用问题，该研究开发了水印算法，通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench，第一个针对大型语言模型水印的全面基准测试，通过设计三个关键要素进行了综合评估，包括基准测试过程、任务选择和评估指标，观察到当前方法在保持生成质量方面存在共同困难。

Nov, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

对抗性语音合成的协作水印技术

用协同训练方案为合成语音水印化提供协助，并显示 HiFi-GAN 神经声码器与 ASVspoof 2021 基线反欺骗模型的合作训练能够持续提高检测性能，同时演示了协同训练如何与增强策略相结合以增强对噪声和时间拉伸的鲁棒性。最后，听测试表明，协同训练对声码器语音的感知质量几乎没有不良影响。

Sep, 2023

基于深度学习的音频水印嵌入方案

本文介绍了一种基于深度学习的音频嵌入图片数字水印方案，并设计了神经网络架构来自动学习水印过程，以及识别存在于失真情况下的音频水印，达到了高保真度和鲁棒性。

Oct, 2021

主动检测基于区域水印的语音克隆

在语音生成模型的快速发展领域中，为了确保音频的真实性并防范声音克隆的风险，我们提出了 AudioSeal，这是第一种专门用于局部检测人工智能生成语音的音频水印技术。通过采用一个同时训练的生成器 / 检测器架构，结合一个可在采样级别上进行局部水印检测的本地化损失以及受到听觉掩蔽启发的新型感知损失，AudioSeal 在抗真实生活音频处理和无感知性方面取得了最先进的性能，据自动和人工评估指标显示。此外，AudioSeal 设计了一个快速的单通道检测器，其检测速度显著超过现有模型达到两个数量级，使其非常适合大规模和实时应用。

Jan, 2024

ROMark: 使用对抗训练的强韧数字水印系统

本文提出利用对抗式机器学习中的稳健优化算法来提高基于卷积神经网络的数字水印框架的鲁棒性，在 COCO 数据集上的实验证明，稳健优化可以显著提高数字水印框架的鲁棒性。

Oct, 2019

V2A-Mark: 多功能深度视听水印技术用于操作定位和版权保护

通过将不可见的视听定位水印和版权水印嵌入原始视频帧和音频中，实现精确的操作定位和版权保护，解决当前视频篡改法医学中的限制，包括泛化能力差、功能单一和单模态聚焦等问题。同时，我们还设计了一个时间对齐和融合模块以及退化提示学习来提高定位精度和解码鲁棒性，引入了示例级音频定位方法和跨模态版权提取机制以耦合音频和视频帧的信息，从而验证了 V2A-Mark 在视听篡改数据集上的有效性，并强调其在定位精度和版权准确性方面的优势，对 AIGC 视频时代的可持续发展至关重要。

Apr, 2024