WavMark: 音频生成的水印技术

Aug, 2023

WavMark: Watermarking for Audio Generation

Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du...

TL;DR使用零样本语音合成的即时语音复制技术存在声音欺诈和冒充说话者的风险，为了对抗这些风险，本文提出了一种创新的音频水印技术，可以在短短 1 秒的音频片段中嵌入 32 位水印，这种水印在人类感官上不可察觉，并且对各种攻击表现出强大的韧性，可用于辨识合成的声音，并具有广泛的音频版权保护应用潜力。该技术具有高度的灵活性，可以通过组合多个水印片段来提高稳健性和扩展容量。与现有水印工具相比，通过利用 10 到 20 秒的宿主音频，本方法在十种常见攻击下具有平均误比特率（BER）为 0.48％，BER 减少了 2800％以上。请参考此链接查看我们工作的演示。

Abstract

Recent breakthroughs in zero-shot voice synthesis have enabled imitating a speaker's voice using just a few seconds of recording while maintaining a high level of realism. Alongside its potential benefits, this powerful technology introduces notable risks, including →

zero-shot voice synthesis voice fraud speaker impersonation audio watermarking framework audio copyright protection

发现论文，激发创造

音频生成扩散模型的隐形数字水印

本文提出了首个应用于基于 mel 频谱图的音频扩散模型的水印技术，以解决音频机器学习领域中模型完整性和数据版权的问题。通过无形水印触发机制，该模型在良性音频生成中具有卓越性能，并能保护模型免受未经授权的修改。

Sep, 2023

对抗性语音合成的协作水印技术

用协同训练方案为合成语音水印化提供协助，并显示 HiFi-GAN 神经声码器与 ASVspoof 2021 基线反欺骗模型的合作训练能够持续提高检测性能，同时演示了协同训练如何与增强策略相结合以增强对噪声和时间拉伸的鲁棒性。最后，听测试表明，协同训练对声码器语音的感知质量几乎没有不良影响。

Sep, 2023

主动检测基于区域水印的语音克隆

在语音生成模型的快速发展领域中，为了确保音频的真实性并防范声音克隆的风险，我们提出了 AudioSeal，这是第一种专门用于局部检测人工智能生成语音的音频水印技术。通过采用一个同时训练的生成器 / 检测器架构，结合一个可在采样级别上进行局部水印检测的本地化损失以及受到听觉掩蔽启发的新型感知损失，AudioSeal 在抗真实生活音频处理和无感知性方面取得了最先进的性能，据自动和人工评估指标显示。此外，AudioSeal 设计了一个快速的单通道检测器，其检测速度显著超过现有模型达到两个数量级，使其非常适合大规模和实时应用。

Jan, 2024

基于深度学习的音频水印嵌入方案

本文介绍了一种基于深度学习的音频嵌入图片数字水印方案，并设计了神经网络架构来自动学习水印过程，以及识别存在于失真情况下的音频水印，达到了高保真度和鲁棒性。

Oct, 2021

V2A-Mark: 多功能深度视听水印技术用于操作定位和版权保护

通过将不可见的视听定位水印和版权水印嵌入原始视频帧和音频中，实现精确的操作定位和版权保护，解决当前视频篡改法医学中的限制，包括泛化能力差、功能单一和单模态聚焦等问题。同时，我们还设计了一个时间对齐和融合模块以及退化提示学习来提高定位精度和解码鲁棒性，引入了示例级音频定位方法和跨模态版权提取机制以耦合音频和视频帧的信息，从而验证了 V2A-Mark 在视听篡改数据集上的有效性，并强调其在定位精度和版权准确性方面的优势，对 AIGC 视频时代的可持续发展至关重要。

Apr, 2024

大型语言模型的多比特无失真水印技术

扩展了一种零比特的无失真水印方法，将多位元的元信息作为水印的一部分嵌入，并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。

Feb, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

大语言模型时代的文本水印调查

通过文本水印技术，在生成的文本中嵌入不可见但可检测的模式，有助于追踪和验证文本来源，从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结，包括不同技术的概述和比较、算法的评估方法以及可能的应用领域，以帮助研究人员全面了解文本水印技术、促进进一步的发展。

Dec, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023