Sep, 2023

利用模态特征进行多模态操作检测和链接

TL;DR我们构建了一个简单而新颖的基于 Transformer 的多模态操纵检测和定位任务框架,通过引入视觉 / 语言预训练的编码器和双支路交叉注意力来同时探索模态特定的特征,并提出了解耦的细粒度分类器和自适应地聚合全局上下文线索的隐式操纵查询,从而提高了揭示伪造细节的能力,实验证明我们提出的模型在 $ m DGM^4$ 数据集上表现优于现有方法。