May, 2024

UnsafeBench: 对真实世界和 AI 生成图像的图像安全分类器进行基准测试

TL;DRUnsafeBench 是一个评估图像安全分类器的有效性和鲁棒性的基准框架;通过评估五种常用的图像安全分类器和三种通用视觉语言模型驱动的分类器,发现现有的图像安全分类器在应对不安全图像的多方面问题上不够全面和有效,并且当适用于 AI 生成的图像时,仅基于真实世界图像训练的分类器性能会下降;据此,设计并实现了一款名为 PerspectiveVision 的综合图像审核工具,该工具可以有效地识别 11 类真实世界和 AI 生成的不安全图像,最佳 PerspectiveVision 模型在六个评估数据集上实现了 0.810 的整体 F1-Score,与 GPT-4V 等封闭源和昂贵的最先进模型相当。UnsafeBench 和 PerspectiveVision 有助于研究界更好地了解生成式 AI 时代的图像安全分类领域。