Aug, 2023

WavMark: 音频生成的水印技术

TL;DR使用零样本语音合成的即时语音复制技术存在声音欺诈和冒充说话者的风险,为了对抗这些风险,本文提出了一种创新的音频水印技术,可以在短短 1 秒的音频片段中嵌入 32 位水印,这种水印在人类感官上不可察觉,并且对各种攻击表现出强大的韧性,可用于辨识合成的声音,并具有广泛的音频版权保护应用潜力。该技术具有高度的灵活性,可以通过组合多个水印片段来提高稳健性和扩展容量。与现有水印工具相比,通过利用 10 到 20 秒的宿主音频,本方法在十种常见攻击下具有平均误比特率(BER)为 0.48%,BER 减少了 2800%以上。请参考此链接查看我们工作的演示。