IML-ViT：基于视觉 Transformer 的图像操作定位

Jul, 2023

IML-ViT：基于视觉 Transformer 的图像操作定位

IML-ViT: Image Manipulation Localization by Vision Transformer

Xiaochen Ma, Bo Du, Xianggen Liu, Ahmed Y. Al Hammadi, Jizhe Zhou

TL;DR开发了一种新的图像篡改定位模型，称为 IML-ViT，它具有高分辨能力、多尺度特征提取能力和篡改边缘监督，并在五个基准数据集上进行了广泛实验，证明了其优于现有篡改定位方法的性能。

Abstract

Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (iml). But what makes a good iml model? The answer

image manipulation localization iml artifacts transformer vit

发现论文，激发创造

通过增强型 Transformer 和共注意力融合实现有效的图像篡改定位

本文提出了一种基于增强型双分支变压器编码器和基于注意力的特征融合的有效图像篡改定位网络 (EITLNet)，通过特征增强模块增强变压器编码器的特征表示能力，并且通过坐标注意力融合模块在多个尺度上有效地融合从 RGB 和噪声流提取的特征。广泛的实验结果验证了该方案在各种基准数据集上达到了最先进的泛化能力和鲁棒性。代码将在此 URL 进行公开。

Sep, 2023

PROMPT-IML：通过 Prompt 调整预训练的基础模型实现图像操作定位

社交网络服务下的欺诈图像存在重大风险，我们提出了一个新的 Prompt-IML 框架来使用预训练的视觉基础模型辅助图像操作定位，所设计的模型在八个典型虚假图像数据集上表现出更好的性能和卓越的鲁棒性。

Jan, 2024

图像操作定位的感知 MAE: 低层特征为焦点的高级视觉学习器

通过整合低级特征与高级特征，本文将图像篡改定位任务重新定义为一个高级视觉任务，并提出了一种名为感知 MAE（PMAE）的方法，通过结合高分辨率输入和感知损失监督模块来增强掩模自动编码器（MAE），从而对低级特征进行补充，该方法在所有五个公开的数据集上优于现有最先进的篡改定位方法。

Oct, 2023

LocalViT: 将局部性带入视觉 Transformer

通过引入深度卷积来将局部性机制引入视觉变换器中，结果显示，在 ImageNet2012 分类任务上，增强了局部性的转换器在不增加参数和计算努力的情况下，优于基线模型 DeiT-T 和 PVT-T 达 2.6% 和 3.1%。

Apr, 2021

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

LF-ViT：针对高效图像识别减少 Vision Transformer 中的空间冗余

该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型，通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制，确定和聚焦类别区域，然后在聚焦阶段使用原始图像中的该区域增强识别能力，该模型有效地缩小了计算要求并提高了性能。

Jan, 2024

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022