主动检测基于区域水印的语音克隆

Jan, 2024

主动检测基于区域水印的语音克隆

Proactive Detection of Voice Cloning with Localized Watermarking

Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran...

TL;DR在语音生成模型的快速发展领域中，为了确保音频的真实性并防范声音克隆的风险，我们提出了 AudioSeal，这是第一种专门用于局部检测人工智能生成语音的音频水印技术。通过采用一个同时训练的生成器 / 检测器架构，结合一个可在采样级别上进行局部水印检测的本地化损失以及受到听觉掩蔽启发的新型感知损失，AudioSeal 在抗真实生活音频处理和无感知性方面取得了最先进的性能，据自动和人工评估指标显示。此外，AudioSeal 设计了一个快速的单通道检测器，其检测速度显著超过现有模型达到两个数量级，使其非常适合大规模和实时应用。

Abstract

In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloni

speech generative models audio authenticity voice cloning audio watermarking ai-generated speech

发现论文，激发创造

WavMark: 音频生成的水印技术

使用零样本语音合成的即时语音复制技术存在声音欺诈和冒充说话者的风险，为了对抗这些风险，本文提出了一种创新的音频水印技术，可以在短短 1 秒的音频片段中嵌入 32 位水印，这种水印在人类感官上不可察觉，并且对各种攻击表现出强大的韧性，可用于辨识合成的声音，并具有广泛的音频版权保护应用潜力。该技术具有高度的灵活性，可以通过组合多个水印片段来提高稳健性和扩展容量。与现有水印工具相比，通过利用 10 到 20 秒的宿主音频，本方法在十种常见攻击下具有平均误比特率（BER）为 0.48％，BER 减少了 2800％以上。请参考此链接查看我们工作的演示。

Aug, 2023

音频生成扩散模型的隐形数字水印

本文提出了首个应用于基于 mel 频谱图的音频扩散模型的水印技术，以解决音频机器学习领域中模型完整性和数据版权的问题。通过无形水印触发机制，该模型在良性音频生成中具有卓越性能，并能保护模型免受未经授权的修改。

Sep, 2023

基于深度学习的音频水印嵌入方案

本文介绍了一种基于深度学习的音频嵌入图片数字水印方案，并设计了神经网络架构来自动学习水印过程，以及识别存在于失真情况下的音频水印，达到了高保真度和鲁棒性。

Oct, 2021

V2A-Mark: 多功能深度视听水印技术用于操作定位和版权保护

通过将不可见的视听定位水印和版权水印嵌入原始视频帧和音频中，实现精确的操作定位和版权保护，解决当前视频篡改法医学中的限制，包括泛化能力差、功能单一和单模态聚焦等问题。同时，我们还设计了一个时间对齐和融合模块以及退化提示学习来提高定位精度和解码鲁棒性，引入了示例级音频定位方法和跨模态版权提取机制以耦合音频和视频帧的信息，从而验证了 V2A-Mark 在视听篡改数据集上的有效性，并强调其在定位精度和版权准确性方面的优势，对 AIGC 视频时代的可持续发展至关重要。

Apr, 2024

对抗性语音合成的协作水印技术

用协同训练方案为合成语音水印化提供协助，并显示 HiFi-GAN 神经声码器与 ASVspoof 2021 基线反欺骗模型的合作训练能够持续提高检测性能，同时演示了协同训练如何与增强策略相结合以增强对噪声和时间拉伸的鲁棒性。最后，听测试表明，协同训练对声码器语音的感知质量几乎没有不良影响。

Sep, 2023

大型语言模型的私有水印

我们提出了第一种私有水印算法，通过使用两个不同的神经网络进行水印生成和检测，扩展了当前的文本水印算法，而不是在两个阶段都使用相同的密钥，实现了高效准确地检测网络，并且对生成和检测速度影响小。

Jul, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的多比特无失真水印技术

扩展了一种零比特的无失真水印方法，将多位元的元信息作为水印的一部分嵌入，并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。

Feb, 2024

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023

关于语言模型水印可学习性的研究

通过水印技术对语言模型生成的文本进行统计检测，有助于在语言模型的负责部署中应用，文章提出了水印蒸馏的方法，通过训练学生模型模仿使用解码器水印技术的教师模型，研究发现模型能够学会生成高可检测性的水印文本，但也存在一些限制。

Dec, 2023