混合低秩专家用于可传输的人工智能生成图像检测

Apr, 2024

混合低秩专家用于可传输的人工智能生成图像检测

Mixture of Low-rank Experts for Transferable AI-Generated Image Detection

Zihan Liu, Hanyi Wang, Yaoyu Kang, Shilin Wang

TL;DR通过开发通用的人工智能生成图像检测器，该研究旨在识别不同来源的图像。该方法通过深入挖掘 CLIP-ViT 的潜力并保留知识，扩展可传递检测的能力，提出了一种新颖的参数高效的微调方法，使用低秩专家的混合模式在 MoE 结构中融合共享和分离的 LoRAs。通过在公共基准测试中进行大量实验，我们的方法在跨生成器泛化和对扰动的鲁棒性方面实现了超越最先进方法的优越性。值得注意的是，我们表现最佳的 ViT-L/14 变体只需训练其 0.08% 的参数即可将最领先的基线提高 + 3.64% 的 mAP 和 + 12.72% 的平均准确率，超越了仅使用训练数据的 0.28% 的基线。

Abstract

generative models have shown a giant leap in synthesizing photo-realistic images with minimal expertise, sparking concerns about the authenticity of online information. This study aims to develop a universal AI-generated image detector capable of identifying images from diverse sources

generative models ai-generated image detector clip-vit fine-tuning approach cross-generator generalization

发现论文，激发创造

提升人工智能生成图像检测的水平与 CLIP

本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反，通过仅利用来自单个生成模型的少量示例图像，基于 CLIP 的检测器展现出了出乎意料的泛化能力，并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配，并在分布外数据的泛化能力（AUC 提高 6%）和受损 / 清洗数据的鲁棒性上实现了显著的改进（+ 13％）。我们的项目可以在此 https URL 找到。

Nov, 2023

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

Feb, 2024

VLTSeg: 用于领域泛化语义分割的基于 CLIP 的视觉 - 语言表示简单转移

本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法，通过在源领域进行训练并在未见目标领域进行评估，提高了领域通用性。实验证明，该方法在域通用分割中的性能优于传统的视觉训练方法，取得了 7.6% mIoU 的提升。同时，在主流数据集上取得了 76.48% mIoU 的性能，超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力，并在当前排行榜上与最优方法并列第一。

Dec, 2023

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

通过少样本 CLIP 辅助扩散生成来识别和减轻模型失效

这项研究通过结合大型语言模型（ChatGPT）和视觉语言深度模型（CLIP），提出了一种利用生成文本描述模型失效模式的端到端框架，以提高对稀有背景等失败情景的性能。通过生成合成数据，以此学习模型的不足，并在不同数据类别的罕见背景上增强性能，该方法在多个模型和数据集上实现了显著的准确度提升（约 21%）。

Dec, 2023

自主学习视觉 Transformer 用于领域泛化

本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Jul, 2022

强大的 CLIP：用于强大的大规模视觉 - 语言模型的无监督对抗微调的视觉嵌入

我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器，从而在依赖于 CLIP 的所有视觉下游任务（VLM，零样本分类）中获得强大的鲁棒性。

Feb, 2024

基于 Robust CLIP 的检测器用于揭示扩散模型生成的图像

通过使用 CLIP 模型提取的图像和文本特征以及多层感知器（MLP）分类器，本研究引入了一个强大的检测框架，并提出了一种能够改善检测器鲁棒性的新型损失函数，以及在模型训练中平整化损失函数空间从而改善检测器的泛化能力。通过大量实验证明了我们方法的有效性，超越了传统检测技术，在 DM 生成的图像检测领域有望成为新的最先进方法。

Apr, 2024

利用 CLIP 进行零样本 HOI 检测需要在多个级别进行知识蒸馏

本文研究了零样本的人 - 物互动检测任务，采用了 CLIP 作为知识蒸馏的大规模预训练视觉 - 语言模型，在全局图像、局部区域和个体实例级别上学习人 - 物互动表示，并通过 CLIP 生成互动得分作为监督信号进行模型训练，在公共 HICO-DET 基准测试中取得了强大的性能。

Sep, 2023

通过专家混合适配器增强视觉语言模型的持续学习

提出了一种参数高效的持续学习框架，通过在视觉语言模型中动态扩展一个预训练的 CLIP 模型，采用专家混合（Mixture-of-Experts）适配器以应对新任务，并引入分布鉴别自动选择器（DDAS）以保留视觉语言模型的零样本识别能力，并通过各种实验验证，该方法在提升性能的同时减少了 60% 的参数训练负担。

Mar, 2024