Feb, 2024

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

TL;DR该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性,结果表明,保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略,使用较少的训练数据(20 万张图像,相较于 72 万张),在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中,该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。