通过增强型 Transformer 和共注意力融合实现有效的图像篡改定位

Sep, 2023

通过增强型 Transformer 和共注意力融合实现有效的图像篡改定位

Effective Image Tampering Localization via Enhanced Transformer and Co-attention Fusion

Kun Guo, Haochen Zhu, Gang Cao

TL;DR本文提出了一种基于增强型双分支变压器编码器和基于注意力的特征融合的有效图像篡改定位网络 (EITLNet)，通过特征增强模块增强变压器编码器的特征表示能力，并且通过坐标注意力融合模块在多个尺度上有效地融合从 RGB 和噪声流提取的特征。广泛的实验结果验证了该方案在各种基准数据集上达到了最先进的泛化能力和鲁棒性。代码将在此 URL 进行公开。

Abstract

Powerful manipulation techniques have made digital image forgeries be easily created and widespread without leaving visual anomalies. The blind localization of tampered regions becomes quite significant for image forensics. In this paper, we propose an effective →

digital image forgery image forensics image tampering localization enhanced transformer encoder attention-based feature fusion

发现论文，激发创造

IML-ViT：基于视觉 Transformer 的图像操作定位

开发了一种新的图像篡改定位模型，称为 IML-ViT，它具有高分辨能力、多尺度特征提取能力和篡改边缘监督，并在五个基准数据集上进行了广泛实验，证明了其优于现有篡改定位方法的性能。

Jul, 2023

极端图像转换促进鲁棒潜在目标表示

用 Extreme Image Transformations（EIT）微调预训练网络可以增强其对各种强度的常见对抗攻击的性能，展示了在受到更强噪声的情况下，EIT 训练网络在物体区域仍然显示强烈的激活，展现了对不同类型对抗攻击的有希望的泛化能力。

Sep, 2023

TransForensics: 基于密集自注意力的图像篡改定位

提出了一种基于 Transformers 的图像伪造定位方法 TransForensics，结合密集自注意力编码器和密集校正模块用于模拟全局上下文和不同尺度下的本地补丁之间的所有成对相互作用，该方法不仅可以捕捉有区分性的表示并获得高质量的蒙版预测，而且不受篡改类型和补丁序列顺序的限制，在主要基准测试中表现优于现有的现有方法。

Aug, 2021

渐进反馈增强转换器用于图像篡改定位

我们提出了一种 Progressive FeedbACk-enhanced Transformer (ProFact) 网络，用于实现粗细图像伪造定位。该网络通过自适应反馈，将初步分支网络生成的粗定位图传递给早期 Transformer 编码层，以增强正特征的表达并抑制干扰因素。结合上下文空间金字塔模块的级联变压器网络用于改进鉴别式法庭特征，提高伪造定位的准确性和可靠性。实验结果表明，我们提出的定位器在图像伪造定位的泛化能力和稳健性方面远远超过现有技术。

Nov, 2023

PROMPT-IML：通过 Prompt 调整预训练的基础模型实现图像操作定位

社交网络服务下的欺诈图像存在重大风险，我们提出了一个新的 Prompt-IML 框架来使用预训练的视觉基础模型辅助图像操作定位，所设计的模型在八个典型虚假图像数据集上表现出更好的性能和卓越的鲁棒性。

Jan, 2024

可转移的对抗性攻击图像篡改定位

本文提出了一种对现有数字图像篡改定位算法进行真实世界应用安全性评估的对抗性攻击方案，通过基于优化和梯度的敌对示例的白盒和黑盒攻击来揭示这种篡改定位器的可靠性，从而准确预测篡改区域并保持高视觉质量的同时，大大降低了定位精度。

Sep, 2023

图像融合变换器

本研究提出一种新的基于 Transformer 的图像融合方法，采用多尺度融合策略同时关注局部和全局信息，使用卷积神经网络与 Transformer 分支捕捉局部和长程特征，经对比实验表明，该方法优于当下多种融合算法。

Jul, 2021

EIT: 强化交互式变压器

本文提出了一种新的神经网络架构，即增强交互式 Transformer (EIT)，用于解决自注意机制中的头部衰减问题。我们将传统的多头自注意机制替换为增强的多头注意力机制 (EMHA)，并引入两种交互模型，Inner-Subspace 交互和 Cross-Subspace 交互，以充分利用 EMHA 的映射能力。通过广泛的实验，我们发现 EIT 在多项任务上 (如机器翻译、摘要生成、语法纠正、语言建模和脑疾病自动诊断)，仅仅在模型大小方面有很小的增加就能以优异的性能超越传统模型。

Dec, 2022

观察再行动：高频注入变换器用于图像恢复

我们提出了 HIT，一种简单而有效的高频注入变压器用于图像恢复，通过设计窗口注入模块（WIM），将丰富的高频细节融入特征图，为高质量图像恢复提供可靠的参考，并使用双向交互模块（BIM）以相互增强的方式汇总不同尺度的特征，从而改善空间上和背景上的表示。

Mar, 2024

学习图像篡改检测的丰富特征

本篇论文提出了一种基于两个流的 Faster R-CNN 网络，旨在检测被篡改图像中的篡改区域，其中一个流从 RGB 图像输入中提取特征，以发现强对比度差异、人为篡改边界等篡改痕迹。另外一个流通过从隐写分析模型过滤层提取的噪声特征，发现真实区域与篡改区域之间的噪声不一致性，并通过双线性池化层融合两个模态的空间共现特征。实验结果表明，该模型性能优于单个模态，且在大小调整和压缩容忍性方面具有最先进的性能。

May, 2018