UnsafeBench: 对真实世界和 AI 生成图像的图像安全分类器进行基准测试

May, 2024

UnsafeBench: 对真实世界和 AI 生成图像的图像安全分类器进行基准测试

UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou...

TL;DRUnsafeBench 是一个评估图像安全分类器的有效性和鲁棒性的基准框架；通过评估五种常用的图像安全分类器和三种通用视觉语言模型驱动的分类器，发现现有的图像安全分类器在应对不安全图像的多方面问题上不够全面和有效，并且当适用于 AI 生成的图像时，仅基于真实世界图像训练的分类器性能会下降；据此，设计并实现了一款名为 PerspectiveVision 的综合图像审核工具，该工具可以有效地识别 11 类真实世界和 AI 生成的不安全图像，最佳 PerspectiveVision 模型在六个评估数据集上实现了 0.810 的整体 F1-Score，与 GPT-4V 等封闭源和昂贵的最先进模型相当。UnsafeBench 和 PerspectiveVision 有助于研究界更好地了解生成式 AI 时代的图像安全分类领域。

Abstract

image safety classifiers play an important role in identifying and mitigating the spread of unsafe images online (e.g., images including violence, hateful rhetoric, etc.). At the same time, with the advent of tex

image safety classifiers unsafe images benchmarking framework ai-generated images perspectivevision

发现论文，激发创造

图像安全维护：使用条件视觉语言模型推理和逆向遮蔽危险内容

社交媒体平台通过使用人工智能和人工审核，模糊分享危险内容的图像以提高用户安全性，研究了图像模糊的理由和最小化模糊的方法，并通过实验证明了所提出方法的有效性。

Jan, 2024

从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果，然而它们依赖于从网络随机获取的数量庞大的数据集，因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献，我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入，通过对收集到的提示和相应的图像进行分析，揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。

Sep, 2023

MLCommons AI 安全基准 v0.5 发布

介绍了 MLCommons AI 安全工作组创建的 AI 安全基准 v0.5，设计用于评估使用对话调整的语言模型的 AI 系统的安全风险。该基准采用了一个确定性的方法来指定和构建，并包括了 13 个危险类别的分类法，为 v0.5 版本提供了 7 个测试用例。

Apr, 2024

机器学习实践中的验证：以计算机视觉系统为例

本文提出了一种通用机器学习系统安全性和鲁棒性评估的框架，设计并评估了一种可扩展的验证方法 VeriVis，以黑盒方式对计算机视觉系统进行验证。VeriVis 通过不同的输入空间缩减技术，对 15 种先进的计算机视觉系统进行验证。该方法比现有的基于梯度的方法检测到的安全问题多 64.8 倍，同时展示了通过重训练减少安全漏洞的有效性。

Dec, 2017

从视觉语言模型中去除不安全内容以用于文本到图像检索和生成

通过从大型语言模型中提取训练数据并进行微调，我们介绍了一种使视觉与语言模型对不适宜的内容不敏感的方法，并展示了它在文本 - 图像检索和生成中的有效性。

Nov, 2023

XIMAGENET-12：一个可解释的 AI 基准数据集用于模型鲁棒性评估

为了解决标准化鲁棒性评估指标缺乏和过多无关基准数据集的问题，我们引入了 XIMAGENET-12，一个可解释的基准数据集，包含 20 万多张图像和 15,600 个手动语义注释。同时，我们提出了一个新的鲁棒性评估标准，超越了模型生成能力的评估。研究人员和从业者可以利用这个资源，在具有挑战性的条件下评估他们的视觉模型的鲁棒性，并从实际的计算机视觉系统需求中受益。

Oct, 2023

这张图片有几只独角兽？一项用于视觉语言模型的安全评估基准

该研究聚焦于 Vision LLMs（VLLMs）在视觉推理中的潜力，从评估性能转移到引入了全面的安全评估套件，包括分布外泛化和对抗鲁棒性。

Nov, 2023

构建安全可靠的用于安全关键任务的视觉与语言处理的人工智能系统

AI 系统在各个领域取得了令人瞩目的成绩，然而其安全性和可靠性仍然是一个重要的关注点，特别是对于安全关键任务。本论文旨在通过进一步开发当前技术来确保安全关键任务的准确模型不确定性。

Aug, 2023

SafeGen: 缓解文本生成图像模型的不安全内容

SafeGen 是一种抵御文本到图像模型生成不安全内容的框架，通过消除不安全的视觉表示，从而提高抵御对抗性提示的能力，并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成，超过了八种最先进的基线方法，实现了 99.1% 的性别内容去除性能。

Apr, 2024

对抗性 Nibbler：一个以数据为中心的挑战，用于提高文本到图像模型的安全性

该研究旨在解决文本到图像（text-to-image，T2I）模型的安全问题，通过引入 Adversarial Nibbler 挑战，通过收集和分析对当前 state-of-the-art T2I 模型的攻击，来提高人们对这些问题的认识。

May, 2023