V2A-Mark: 多功能深度视听水印技术用于操作定位和版权保护

Apr, 2024

V2A-Mark: 多功能深度视听水印技术用于操作定位和版权保护

V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection

Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li...

TL;DR通过将不可见的视听定位水印和版权水印嵌入原始视频帧和音频中，实现精确的操作定位和版权保护，解决当前视频篡改法医学中的限制，包括泛化能力差、功能单一和单模态聚焦等问题。同时，我们还设计了一个时间对齐和融合模块以及退化提示学习来提高定位精度和解码鲁棒性，引入了示例级音频定位方法和跨模态版权提取机制以耦合音频和视频帧的信息，从而验证了 V2A-Mark 在视听篡改数据集上的有效性，并强调其在定位精度和版权准确性方面的优势，对 AIGC 视频时代的可持续发展至关重要。

Abstract

ai-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue,

ai-generated video video tampering forensics invisible visual-audio localization watermarks copyright protection video editing

发现论文，激发创造

基于深度学习的音频水印嵌入方案

本文介绍了一种基于深度学习的音频嵌入图片数字水印方案，并设计了神经网络架构来自动学习水印过程，以及识别存在于失真情况下的音频水印，达到了高保真度和鲁棒性。

Oct, 2021

EditGuard：用于篡改定位和版权保护的多功能图像水印技术

在 AI 生成内容（AIGC）模型可以生成惊人逼真的图像的时代，未授权复制和恶意篡改的阴影对版权完整性和信息安全构成了即将到来的威胁。本文提出了一种创新的主动取证框架 EditGuard，以统一版权保护和对于 AIGC 编辑方法的无痕迹篡改的定位，特别适用于局限在 AIGC 编辑方法上的图像篡改。EditGuard 可以提供不可察觉水印的精细嵌入、被篡改区域精确解码和著作权信息。通过利用我们观察到的图像隐写术的脆弱性和局部性，EditGuard 的实现可以转化为一种统一的图像位隐写问题，从而将训练过程与篡改类型完全解耦。大量实验证明，我们的 EditGuard 平衡了篡改定位的准确度、著作权恢复的精确性以及对各种 AIGC 编辑方法的普适性，特别是对于肉眼难以检测的图像伪造。

Dec, 2023

提高不可感知性和鲁棒性的视频篡改检测鲁棒水印技术

本研究提出了一种基于 3D-UNet 的视频水印网络，可以用于视频篡改定位和检测，通过模拟视频压缩和模糊等攻击，以实现对被攻击版本的篡改区域的准确定位和检测，并具有良好的不可感知性和鲁棒性。

Jul, 2022

具有注意力的鲁棒隐形视频水印

本文介绍了一种名为 RivaGAN 的新型架构，其具有自定义的基于注意力机制的嵌入任意数据的方式以及两个独立的对视频质量进行批判和优化鲁棒性的对抗性网络，使用这种技术，我们能够在基于深度学习的视频水印技术中取得最新成果，并产生最小的视觉失真和针对常见的视频处理操作具有强大的鲁棒性。

Sep, 2019

主动检测基于区域水印的语音克隆

在语音生成模型的快速发展领域中，为了确保音频的真实性并防范声音克隆的风险，我们提出了 AudioSeal，这是第一种专门用于局部检测人工智能生成语音的音频水印技术。通过采用一个同时训练的生成器 / 检测器架构，结合一个可在采样级别上进行局部水印检测的本地化损失以及受到听觉掩蔽启发的新型感知损失，AudioSeal 在抗真实生活音频处理和无感知性方面取得了最先进的性能，据自动和人工评估指标显示。此外，AudioSeal 设计了一个快速的单通道检测器，其检测速度显著超过现有模型达到两个数量级，使其非常适合大规模和实时应用。

Jan, 2024

WavMark: 音频生成的水印技术

使用零样本语音合成的即时语音复制技术存在声音欺诈和冒充说话者的风险，为了对抗这些风险，本文提出了一种创新的音频水印技术，可以在短短 1 秒的音频片段中嵌入 32 位水印，这种水印在人类感官上不可察觉，并且对各种攻击表现出强大的韧性，可用于辨识合成的声音，并具有广泛的音频版权保护应用潜力。该技术具有高度的灵活性，可以通过组合多个水印片段来提高稳健性和扩展容量。与现有水印工具相比，通过利用 10 到 20 秒的宿主音频，本方法在十种常见攻击下具有平均误比特率（BER）为 0.48％，BER 减少了 2800％以上。请参考此链接查看我们工作的演示。

Aug, 2023

音频生成扩散模型的隐形数字水印

本文提出了首个应用于基于 mel 频谱图的音频扩散模型的水印技术，以解决音频机器学习领域中模型完整性和数据版权的问题。通过无形水印触发机制，该模型在良性音频生成中具有卓越性能，并能保护模型免受未经授权的修改。

Sep, 2023

为多模式嵌入服务创建水印视觉语言预训练模型

我们提出了一种安全而强大的基于后门的嵌入水印方法，名为 VLPMarker，它利用嵌入正交转换来有效地将触发器注入到 VLPs 中，实现高质量版权验证并对模型性能产生最小影响。

Nov, 2023

水印是深度伪造检测器的漏洞吗？重新思考积极数字取证技术

通过对水印技术进行改进，提出了一种名为 AdvMark 的方法，可用于增强图像的取证性和对抗性检测，以对抗 Deepfake 合成技术的威胁。

Apr, 2024

针对摄像机拍摄具有鲁棒性的图像水印技术的自动定位和检测应用

本文提出了一种图像水印系统，该系统可以自动处理图像中的水印定位和检测，并在应用场景中具有广泛的适用性。与以前的方法相比，该方法使用深度学习技术，实现了端到端的水印嵌入和检测，并使用透视校正提高了检测的自动性能力。

Apr, 2023