如何提升图像修复中的注意力潜力？

Mar, 2024

如何提升图像修复中的注意力潜力？

How Powerful Potential of Attention on Image Restoration?

Cong Wang, Jinshan Pan, Yeying Jin, Liyan Wang, Wei Wang...

TL;DR通过连续缩放注意力（CSAttn）方法，无需使用 FFN 来进行图像恢复任务，实验证明一些简单的操作可以显著影响模型性能，并展示了 CSAttn 在图像恢复任务中优于基于 CNN 和 Transformer 的方法。

Abstract

transformers have demonstrated their effectiveness in image restoration tasks. Existing Transformer architectures typically comprise two essential components: multi-head self-attention and feed-forward network (F

transformers image restoration attention mechanisms continuous scaling attention cnn-based and transformer-based approaches

发现论文，激发创造

IPT-V2: 高效的图像处理转换器使用层次注意力

近期的研究表明，基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而，我们的分析表明，现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系，而这对于恢复退化图像的细节和缺失内容非常关键。为此，我们提出了一种具有分层注意力的高效图像处理 Transformer 架构，称为 IPTV2，采用了一种聚焦上下文自注意力（FCSA）和全局网格自注意力（GGSA），以在局部和全局感受野中获取充分的令牌交互。具体而言，FCSA 将移位窗口机制应用于通道自注意力中，有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系，在空间维度中聚合全局信息。此外，我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明，我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果，包括去噪、去模糊、去雨等，并且在性能和计算复杂度的权衡方面获得了很大的改进。此外，我们将我们的方法扩展到图像生成作为潜在扩散的支撑，显著优于 DiTs。

Mar, 2024

图像变换器

在这项工作中，我们将基于自我关注机制的模型架构 ——Transformer 模型，泛化到图像生成的序列建模问题上，并通过限制自我关注机制只关注局部邻域，显著提高了模型能够实际处理的图像大小，同时在图像生成方面显著优于当前最优秀的状态，提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77，同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中，我们发现，我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。

Feb, 2018

图像恢复的增强 - multi-attention 方法

我们提出了 Diverse Restormer（DART），一种新颖的图像修复方法，通过有效地整合来自各种来源（长序列、局部和全局区域、特征维度和位置维度）的信息，解决了修复挑战。我们的方法利用了 Transformer 模型在图像修复方面的卓越性能以及注意力机制方面的最新进展，采用定制化的注意力机制增强了整体性能。DART 是我们的新型网络架构，利用窗口化注意力机制模拟了人眼的选择性聚焦机制。通过动态调整接受域，它能够最佳地捕捉对图像分辨率重建至关重要的基本特征。通过引入长序列图像修复的 LongIR 注意力机制，实现了效率和性能的平衡。在特征和位置维度上整合注意力机制能够进一步提高对精细细节的恢复。在五个修复任务上的评估稳定地将 DART 置于领先地位。一旦被接受，我们将致力于提供公开可访问的代码和模型，以确保可复现性并促进进一步的研究。

Apr, 2024

HAT：用于图像恢复的混合注意力变换器

Transformer-based methods have limitations in utilizing input information, so a Hybrid Attention Transformer (HAT) is proposed to improve restoration tasks by combining channel attention and window-based self-attention schemes.

Sep, 2023

图像超分辨率变换器中激活更多像素

为了更好的利用 Transformer 的潜力以进行图片重构，在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外，还引入了重叠交叉注意力模块并采用相同任务的预训练策略，拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。

May, 2022

你真的需要注意力吗？仅使用一堆前馈层就可以在 ImageNet 上惊人地表现

通过在 Vision Transformer 中替换 Attention 层为基于 Patch 维度的前馈网络，本文发现除 Attention 层外，Transformer 中的其他方面，例如 patch embedding，可能更加关键。在 ImageNet 实验中，新架构的表现意外地好，为 74.9% top-1 accuracy。

May, 2021

高分辨率 GAN 的改进变压器

本文介绍了将多维块自注意力与多层感知机结合的 Transformer 模型 HiT，该模型在高清图像生成领域的表现优于传统基于卷积的方法。

Jun, 2021

注意力可收缩变换器用于精确图像恢复

本文提出了 Attention Retractable Transformer (ART) 用于图像修复任务，通过在网络中使用稠密和稀疏注意力模块，实现更广泛的接受域并提高了 Transformer 的表征能力。大量实验结果验证了该方法在各种基准数据集上的优越性。

Oct, 2022

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023