对抗人工智能生成的视觉媒体的防御综述：检测、干扰和认证

Jul, 2024

对抗人工智能生成的视觉媒体的防御综述：检测、干扰和认证

A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication

Jingyi Deng, Chenhao Lin, Zhengyu Zhao, Shuai Liu, Qian Wang...

TL;DR该论文提供了对AI生成视觉媒体防御研究的系统和及时的审查，包括检测、干扰和认证，同时调查了关于防御可信度的派生任务，如鲁棒性和公平性，提出了一个统一的被动和主动的框架，并总结了常用的评估数据集、标准和指标，并通过分析审查的研究，提供了当前研究挑战的见解，并提出了未来研究的可能方向。

Abstract

deep generative models have demonstrated impressive performance in various computer vision applications, including image synthesis, video generation, and medical analysis. Despite their significant advancements,

发现论文，激发创造

PixelDefend：利用生成模型理解和防御对抗样本

本文提出了一种名为PixelDefend的新方法，可以通过将恶意扰动图像移回训练数据中所看到的分布来净化这些图片，然后在经过未经修改的分类器时进行分类，从而大大提高了各种最先进攻击方法的弹性。

Oct, 2017

ArtiFact：一个大规模人工和真实混合图像数据集，用于通用和健壮的合成图像检测

本篇论文旨在通过ArtiFact大型数据集以及多分类分类方案和滤波步幅缩减策略，检测来自已知和未知生成器的合成图像，以增强合成图像探测器的泛化和鲁棒性。结果表明，该方案在IEEE VIP Cup ICIP 2022挑战赛上取得了明显的优势。

Feb, 2023

检测大型AI模型生成的多媒体内容：一项调研

通过系统的调查研究，我们填补了一个学术空白，为全球人工智能安全努力做出贡献，帮助确保数字领域中信息的完整性。

Jan, 2024

对抗性Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

从生成图像的文本到图像（T2I）生成AI模型的发展中，评估模型对非明显攻击的鲁棒性至关重要。在本文中，我们通过关注“隐式对抗”提示（触发T2I模型因非明显原因生成不安全图像的提示），独立确定了一组难以发现的安全问题，而人类创造力很适合揭示这些问题。通过构建Adversarial Nibbler Challenge，一种用于众包隐式对抗提示的红队方法，我们汇集了一套最先进的T2I模型，并采用简单的用户界面来识别和注释伤害，与不同人群合作，以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行，以便在T2I模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具，方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过10,000个提示-图像对的安全机器注释，其中1,500个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现，人类认为有害的图像中，有14％被机器错误标记为“安全”。我们已经发现了新的攻击策略，凸显了确保T2I模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估，并促进T2I模型的负责开发。

Feb, 2024

网络影响操作中的合成图像生成：一种新兴威胁?

人工智能的发展催生了数字内容生成的转变，特别对网络影响操作产生了深远的影响。本文研究了扩散模型等生成深度学习模型在制造令人信服的合成图像方面的潜力和局限性，并对这些工具的可接近性、实用性和输出质量进行了批判性评估，同时分析了它们在欺骗、影响和颠覆威胁情景中的影响。在几个假设的网络影响操作中，本报告生成内容来展示这些AI驱动方法当前的能力和局限性。虽然生成模型擅长生成插图和非现实的图像，但创建令人信服的逼真照片内容仍面临重大挑战，受计算资源和必须人工指导改进的必要性限制。我们的探索强调了技术进步和其滥用潜力之间的微妙平衡，推动进行持续研究、防御机制、多学科合作和政策发展。这些建议旨在利用人工智能的潜力产生积极的影响，同时防范对信息完整性的风险，尤其是在网络影响的背景下。

Mar, 2024

对抗性人工智能艺术: 理解、生成、检测和基准测试

该研究论文提出了一种系统性尝试，以理解和检测在对抗场景中生成的AI图像（AI艺术）。该论文收集和分享了一个名为ARIA的数据集，其中包含来自四种热门AI图像生成器生成的真实图像和对应的人工对应图像。通过对ARIA数据集进行用户研究和基准测试，评估了真实世界用户和现有AI图像检测器在识别这些图像上的能力，并介绍了一个ResNet-50分类器，并评估了它在ARIA数据集上的准确性和可迁移性。

Apr, 2024

破坏视频图像的风格模仿攻击

探索视频图像的方式以阻碍艺术风格模仿，验证个别帧和短场景的优化基准能够恢复对艺术模仿的保护，同时抵御适应性对策。

May, 2024

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为ART的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及ART引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024

T2VSafetyBench评估文本到视频生成模型的安全性

Sora的最新发展带来了文本到视频（T2V）生成的新时代，但也引起了对其安全风险的关注。文章引入了T2VSafetyBench，这个新的基准旨在进行安全关键评估，定义了视频生成安全的12个关键方面并构建了恶意提示数据集，结果显示了模型的异质性和使用性与安全性之间的权衡，强调了在生成AI时优先考虑视频安全的紧迫性。

Jul, 2024

合成摄影检测：识别人工智能合成图像的视觉指导

本研究针对合成图像与真实照片的辨别问题，揭示了生成扩散模型在创建合成图像时所产生的可见伪影。我们对这些伪影进行了分类和实例展示，并讨论了检测所面临的挑战，以及本研究的实际应用和未来研究方向。

Aug, 2024