Apr, 2024

三元探测器:基于文本辅助和注意力机制的光谱融合用于扩散生成图像检测

TL;DR本文提出了一种针对扩散模型特别设计的伪造检测方法 —— 三位一体检测器,它通过使用 CLIP 编码器将粗粒度文本特征与像素域中的细粒度伪造物相结合,实现了综合多模态检测。通过设计多光谱通道注意力融合单元(MCAF),提取频谱不一致性,并进一步集成两种模态的空间共现性,以增加对扩散生成图像特征的敏感性。大量实验证明,我们的三位一体检测器方法优于多种最先进的方法,在所有数据集上都具有较强的竞争力,并在扩散数据集的可迁移性上提升了 17.6%。