Nov, 2023

提升人工智能生成图像检测的水平与 CLIP

TL;DR本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。