对抗人工智能生成的视觉媒体的防御综述:检测、干扰和认证
本文提出了一种名为PixelDefend的新方法,可以通过将恶意扰动图像移回训练数据中所看到的分布来净化这些图片,然后在经过未经修改的分类器时进行分类,从而大大提高了各种最先进攻击方法的弹性。
Oct, 2017
本篇论文旨在通过ArtiFact大型数据集以及多分类分类方案和滤波步幅缩减策略,检测来自已知和未知生成器的合成图像,以增强合成图像探测器的泛化和鲁棒性。结果表明,该方案在IEEE VIP Cup ICIP 2022挑战赛上取得了明显的优势。
Feb, 2023
从生成图像的文本到图像(T2I)生成AI模型的发展中,评估模型对非明显攻击的鲁棒性至关重要。在本文中,我们通过关注“隐式对抗”提示(触发T2I模型因非明显原因生成不安全图像的提示),独立确定了一组难以发现的安全问题,而人类创造力很适合揭示这些问题。通过构建Adversarial Nibbler Challenge,一种用于众包隐式对抗提示的红队方法,我们汇集了一套最先进的T2I模型,并采用简单的用户界面来识别和注释伤害,与不同人群合作,以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行,以便在T2I模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具,方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过10,000个提示-图像对的安全机器注释,其中1,500个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现,人类认为有害的图像中,有14%被机器错误标记为“安全”。我们已经发现了新的攻击策略,凸显了确保T2I模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估,并促进T2I模型的负责开发。
Feb, 2024
人工智能的发展催生了数字内容生成的转变,特别对网络影响操作产生了深远的影响。本文研究了扩散模型等生成深度学习模型在制造令人信服的合成图像方面的潜力和局限性,并对这些工具的可接近性、实用性和输出质量进行了批判性评估,同时分析了它们在欺骗、影响和颠覆威胁情景中的影响。在几个假设的网络影响操作中,本报告生成内容来展示这些AI驱动方法当前的能力和局限性。虽然生成模型擅长生成插图和非现实的图像,但创建令人信服的逼真照片内容仍面临重大挑战,受计算资源和必须人工指导改进的必要性限制。我们的探索强调了技术进步和其滥用潜力之间的微妙平衡,推动进行持续研究、防御机制、多学科合作和政策发展。这些建议旨在利用人工智能的潜力产生积极的影响,同时防范对信息完整性的风险,尤其是在网络影响的背景下。
Mar, 2024
该研究论文提出了一种系统性尝试,以理解和检测在对抗场景中生成的AI图像(AI艺术)。该论文收集和分享了一个名为ARIA的数据集,其中包含来自四种热门AI图像生成器生成的真实图像和对应的人工对应图像。通过对ARIA数据集进行用户研究和基准测试,评估了真实世界用户和现有AI图像检测器在识别这些图像上的能力,并介绍了一个ResNet-50分类器,并评估了它在ARIA数据集上的准确性和可迁移性。
Apr, 2024
大规模的预训练生成模型在生成创意内容方面表现出色,但是存在安全风险,为了保护用户的权益和安全,我们提出了一种名为ART的新型自动红队框架,旨在通过结合视觉语言模型和大型语言模型,有效地识别文本转图像模型的漏洞,并通过实验证明了这种方法的有效性和适应性,以及ART引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。
May, 2024
Sora的最新发展带来了文本到视频(T2V)生成的新时代,但也引起了对其安全风险的关注。文章引入了T2VSafetyBench,这个新的基准旨在进行安全关键评估,定义了视频生成安全的12个关键方面并构建了恶意提示数据集,结果显示了模型的异质性和使用性与安全性之间的权衡,强调了在生成AI时优先考虑视频安全的紧迫性。
Jul, 2024
本研究针对合成图像与真实照片的辨别问题,揭示了生成扩散模型在创建合成图像时所产生的可见伪影。我们对这些伪影进行了分类和实例展示,并讨论了检测所面临的挑战,以及本研究的实际应用和未来研究方向。
Aug, 2024