IML-ViT:基于视觉 Transformer 的图像操作定位
本文提出了一种基于增强型双分支变压器编码器和基于注意力的特征融合的有效图像篡改定位网络 (EITLNet),通过特征增强模块增强变压器编码器的特征表示能力,并且通过坐标注意力融合模块在多个尺度上有效地融合从 RGB 和噪声流提取的特征。广泛的实验结果验证了该方案在各种基准数据集上达到了最先进的泛化能力和鲁棒性。代码将在此 URL 进行公开。
Sep, 2023
社交网络服务下的欺诈图像存在重大风险,我们提出了一个新的 Prompt-IML 框架来使用预训练的视觉基础模型辅助图像操作定位,所设计的模型在八个典型虚假图像数据集上表现出更好的性能和卓越的鲁棒性。
Jan, 2024
通过整合低级特征与高级特征,本文将图像篡改定位任务重新定义为一个高级视觉任务,并提出了一种名为感知 MAE(PMAE)的方法,通过结合高分辨率输入和感知损失监督模块来增强掩模自动编码器(MAE),从而对低级特征进行补充,该方法在所有五个公开的数据集上优于现有最先进的篡改定位方法。
Oct, 2023
通过引入深度卷积来将局部性机制引入视觉变换器中,结果显示,在 ImageNet2012 分类任务上,增强了局部性的转换器在不增加参数和计算努力的情况下,优于基线模型 DeiT-T 和 PVT-T 达 2.6% 和 3.1%。
Apr, 2021
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
Apr, 2024
该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型,通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制,确定和聚焦类别区域,然后在聚焦阶段使用原始图像中的该区域增强识别能力,该模型有效地缩小了计算要求并提高了性能。
Jan, 2024
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
本文提出了一种名为 HiViT 的分层视觉转换器的设计,该设计在 MIM 中具有高效性和良好的性能,通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,将蒙版单元序列化为普通视觉变换器,经实证研究表明,在 ImageNet-1K 上运行 MAE,HiViT-B 相对于 ViT-B 的准确率提高了 0.6%,比 Swin-B 快了 1.9 倍,表现提高泛化到检测和分割等下游任务。
May, 2022